Quantitative Ansätze in den Literatur- und Geisteswissenschaften 


Quantitative Ansatze 
in den Literatur- und 
Geisteswissenschaften 


Systematische und historische Perspektiven 


Herausgegeben von 
Toni Bernhart, Marcus Willand, Sandra Richter 
und Andrea Albrecht 


DE GRUYTER 


Gefördert von der VolkswagenStiftung. 


ISBN 978-3-11-052200-6 
e-ISBN (PDF) 978-3-11-052330-0 
e-ISBN (EPUB) 978-3-11-052337-9 


KO) BY-Nc-ND | 
Dieses Werk ist lizenziert unter der Creative Commons Attribution-NonCommercial- 


NoDerivatives 4.0 International License. Weitere Informationen finden Sie 
unter http: //creativecommons.org/licenses/by-nc-nd/4.0/. 


Library of Congress Control Number: 2018936214 


Bibliografische Information der Deutschen Nationalbibliothek 

Die Deutsche Nationalbibliothek verzeichnet diese Publikation in der Deutschen 
Nationalbibliografie; detaillierte bibliografische Daten sind im Internet 

über http: //dnb.dnb.de abrufbar. 


© 2018 Toni Bernhart, Marcus Willand, Sandra Richter und Andrea Albrecht, publiziert von 


Walter de Gruyter GmbH, Berlin/Boston 

Dieses Buch ist als Open-Access-Publikation verfügbar über www.degruyter.com. 
Umschlagfoto: Frank Keller „light room I“ 

Druck und Bindung: CPI books GmbH, Leck 

Gedruckt auf säurefreiem Papier 

Printed in Germany 


www. degruyter.com 


Inhalt 


Toni Bernhart, Marcus Willand, Sandra Richter und Andrea Albrecht 
Einleitung: Quantitative Ansätze in den Literatur- und 
Geisteswissenschaften — 1 


Teil 1: Applikationen 


Jonas Kuhn 
Computerlinguistische Textanalyse in der Literaturwissenschaft? Oder: 
»The Importance of Being Earnest« bei quantitativen Untersuchungen — 11 


Nils Reiter und Marcus Willand 

Poetologischer Anspruch und dramatische Wirklichkeit: Indirekte 
Operationalisierung in der digitalen Dramenanalyse 
Shakespeares natürliche Figuren im deutschen Drama des 

18. Jahrhunderts — 45 


Christof Schöch 
Zeta für die kontrastive Analyse literarischer Texte 
Theorie, Implementierung, Fallstudie — 77 


Florian Barth 
Zwischen Elisabeth Hauptmann und Bertolt Brecht: Stilometrische Studien 
einer Zusammenarbeit — 95 


Friedrich Michael Dimpel 
Narratologische Textauszeichnung in Märe und Novelle — 121 


Angelika Zirker, Judith Glaesser, Augustin Kelava und Matthias Bauer 
Kompetenzmodellierung im Fach Englisch: Literaturwissenschaft meets 
Psychometrie — 149 


Gabriel Viehhauser 
Digital Humanities ohne Computer? Alte und neue quantifizierende Zugänge 
zum mittelhochdeutschen Tagelied — 173 


vi — Inhalt 


Teil 2: Reflexionen 


Toni Bernhart 
Quantitative Literaturwissenschaft: Ein Fach mit langer Tradition? —— 207 


Cornelis Menke 
Zum Ideal der Quantifizierung —— 221 


Friederike Schruhl 
Quantifizieren in der Interpretationspraxis der Digital Humanities —— 235 


Emmerich Kelih 

Quantitative Verfahren in der russischen Literaturwissenschaft der 1920er und 
1930er Jahre 

B. I. Jarcho und sein Beitrag zur quantitativen Literaturgeschichte — 269 


Benjamin Krautter 

Über die Attribution hinaus 

Forschungsperspektiven der Stilometrie als Anwendungsfeld in der 
Literaturwissenschaft — 289 


Carolin Hahn 

Forschung benötigt Forschungsinfrastrukturen 
Gegenwärtige Herausforderungen literaturwissenschaftlicher 
Netzwerkanalysen — 315 


Celia Krause und Philipp Hegel 
Überlegungen zur quantitativen Kodikologie — 335 


Anne Baillot 

Die Krux mit dem Netz 

Verknüpfung und Visualisierung bei digitalen Briefeditionen — 355 
Julia Lossau 


Der Raum und das Quantitative — 371 


Beiträgerinnen und Beiträger — 389 


Einleitung: Quantitative Ansätze in den 
Literatur- und Geisteswissenschaften 


Die Rede von digitalen Verfahren, die die geisteswissenschaftliche Forschung re- 
novieren werden, ist derzeit ubiquitär, trübt aber den Blick dafür, dass quantita- 
tive Ansätze geisteswissenschaftlicher Forschung nicht neu sind, sondern auf 
eine lange Geschichte zurückblicken können. Denn der zählende Umgang mit 
Texten ist keinesfalls erst durch die »digitale Revolution: der Geisteswissenschaf- 
ten denkbar geworden. Vielmehr wird schon seit ungefähr 200 Jahren das, was 
vom späten Wilhelm Dilthey als Gegenstand der verstehenden und qualitativ ori- 
entierten Geisteswissenschaften bestimmt wurde, zum »messbaren« Objekt er- 
klärt. 

Seit Beginn des 19. Jahrhunderts werden quantifizierende Verfahren ange- 
wandt, um Sprache und literarische Texte zu beschreiben, zu analysieren und zu 
interpretieren. Bis in die ersten Jahre des 21. Jahrhunderts sind solche Ansätze 
— beispielsweise aus den informellen Gruppen um Wilhelm Fucks oder Max 
Bense - in der Literaturwissenschaft stark unterrepräsentiert; im Zuge der Digital 
Humanities gewinnen sie jedoch wieder stark an Bedeutung. Diese Entwicklung 
fortschreibend, entwerfen auch die einzelnen Beiträge dieses Bandes historisch 
und systematisch reflektierte Perspektiven für eine auch, aber nicht ausschließ- 
lich, in den Digital Humanities beheimatete Quantitative Literatur- und Geistes- 
wissenschaft und diskutieren ihr Potential in theoretischer und praktischer Hin- 
sicht. 

Um die Mitte des 19. Jahrhunderts unternehmen Wissenschaftler in zahlrei- 
chen Ländern der Welt und unabhängig voneinander den Versuch, literarische 
und sprachliche Parameter mit zählenden, messenden und rechnenden Metho- 
den zu bestimmen und zu deuten. Auffallend dabei ist - und dies gilt bis ins frühe 
20. Jahrhundert -, dass diese Vorstöße nicht in erster Linie von Philologen unter- 
nommen werden, sondern von Physikern, Mathematikern, Meteorologen, Philo- 
sophen oder Psychologen. Gegen Ende des 19. Jahrhunderts lässt sich vor allem 
in Russland und Europa ein genuines Interesse an einem quantifizierenden Um- 
gang mit Sprache und Literatur beobachten.' Das erste Frequenzwörterbuch des 
Deutschen erschien 1898. Friedrich Wilhelm Kaeding, der Herausgeber, wurde 


1 Peter Grzybek, Emmerich Kelih: »Empirische Textsemiotik und quantitative Text-Typologie«, 
in: Text & Reality. Text & Wirklichkeit, hg. v. Jeff Bernard, Jurij Fikfak und Peter Grzybek. Ljubl- 
jana, Wien, Graz 2005, S. 95-120. 
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von fast 1000 freiwilligen Helfern unterstiitzt, um die von ihm erfassten 11 Mio. 
Wörter zu systematisieren.? Ohne Zweifel ist diese Zahl beeindruckend, doch vor 
dem Hintergrund der zeitgenössischen Verfügbarkeit und Möglichkeit der Verar- 
beitung von Daten verliert sie sogleich an Imposanz. 

115 Jahre nach der Herausgabe des Frequenzwörterbuchs, im April 2013, ver- 
kündete Google Books, 30 Mio. Bücher gescannt zu haben; das hauseigene 
Textanalysetool Ngram-Viewer erlaubt es derzeit, 5,2 Mio. davon zu durchsuchen 
— das entspricht etwa 500 Mrd. Wörtern, von denen 37 Mrd. der deutschen Spra- 
che zugehörig sind.’ Die 5,2 Mio. Bücher entsprechen etwa 4% aller jemals ge- 
druckten Bücher. Lesen kann diese Menge natürlich niemand, aber neben dem 
häufig referierten Problem der beschränkten Leseleistung eines Menschen muss 
perspektivisch gerade die steigende Menge der Buchproduktion‘ als Argument 
für eine Anpassung der Literaturwissenschaft an den Medienwandel der Gesell- 
schaft hin zum Digitalen genannt werden. Wurden von 1740 bis 1900 etwa 32.000 
Romane im englischsprachigen Raum publiziert, erschienen allein in Deutsch- 
land seit 2005 Jahr für Jahr etwa 75.000 bis 85.000 Bücher, bei einem recht stabi- 
len Belletristik-Anteil von gut 30%.° Zwar existiert ein Gutteil dieser Bücher »nur« 
digital, doch der Blick in den Bestand einer einzigen Bibliothek vermag die Not- 
wendiskeit effizienter Digitalisierungstechniken aufzuzeigen: Die Württembergi- 
sche Landesbibliothek nennt als Bestand 3,7 Millionen gedruckte Bücher, 15.420 
Handschriften, 7.087 Inkunabeln und 180.439 Autographe. Es benötigte die Le- 
benszeit von über 7.000 Wissenschaftlern, um diesen Bestand einmal komplett 
zu lesen — etwa um nach einem bestimmten Ausdruck zu fahnden. Im Vergleich 
dazu benötigte Google Books am 20. Dezember 2017 genau 0,54 Sekunden, um in 


2 Friedrich Wilhelm Kaeding: Häufigkeitswörterbuch der deutschen Sprache. Festgestellt durch 
einen Arbeitsausschuß der deutschen Stenographiesysteme. Berlin 1898; Toni Bernhart: »Von 
Aalschwanzspekulanten bis Abendrotlicht«. Buchstäbliche Materialität und Pathos im »Häufig- 
keitswörterbuch der deutschen Sprache von Friedrich Wilhelm Kaeding«, in: Ethos und Pathos 
der Geisteswissenschaften. Konfigurationen der wissenschaftlichen Persona seit 1750, hg. v. Ralf 
Klausnitzer, Carlos Spoerhase und Dirk Werle. Berlin, Boston 2015, S. 165-189. 

3 Jean-Baptiste Michel (u. a.): »Quantitative Analysis of Culture Using Millions of Digitized 
Books«, in: Science (2011) H. 331, S. 176-182. 

4 Marcel Lepper: »Big Data, Global Villages«, in: Philological Encounters 1 (2016), S. 131-162. 

5 Die Zahlen stammen vom Börsenverein des Deutschen Buchhandels: http://www.boersenver 
ein.de/sixcms/media.php/976/Titelproduktion_Erst_und_Neuauflage_final.pdf und http://ww 
w.boersenverein.de/sixcms/media.php/1117/Tab.4_BuBiZ_2017.pdf (beide 24.10.2017). 
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den bereits digitalisierten Beständen 202.000.000 Treffer für das Suchwort »Le- 
sen« zu finden.® 

Auf den ersten Blick scheint sich hieraus vor allem ein arbeitsökonomisches 
Argument ableiten zu lassen; immerhin könnten zeitintensive Archiv- und Biblio- 
theksbesuche bald der Vergangenheit angehören. Tatsächlich erstreckt sich der 
durch die Textdigitalisierung ermöglichte Wandel aber auch auf die inhaltliche 
Ebene der Texterschließung und Textanalyse. Denn mit dem Textkorpus wächst 
potentiell auch der Geltungsbereich literaturwissenschaftlicher Aussagen. Diese 
häufig als »demokratisierend« oder »entkanonisierend< lancierte Entwicklung der 
zunehmend ungerichteten und auf Masse abzielenden Digitalisierung gedruckter 
Wissensbestände durch Großkonzerne und öffentliche bestandhaltende Institu- 
tionen ist jedoch nicht ganz unkritisch zu betrachten. Sie stellt uns vor eine 
stattliche Reihe ökonomischer, juristische, politischer und schließlich auch tech- 
nischer und wissenschaftlicher Probleme und Herausforderungen. Die verschie- 
denen wissenschaftlichen Disziplinen müssen dabei je eigene Wege im Umgang 
mit den digitalen Sammlungen finden. 

Für die Geistes- und Literaturwissenschaft ist das Novum quantitativer An- 
sätze jedoch nicht nur die Frage nach dem Was, sondern insbesondere auch die 
Frage nach dem Wie, also nach der Methodik des Umgangs mit den textuellen 
Artefakten. Hier schließt der Band sowohl an Diskussionen der Methodologie als 
auch an zeitgenössische Diskussionen über spezifisch literaturwissenschaftli- 
ches Arbeiten an, die unter dem Stichwort Praxeologie der Literaturwissenschaft 
verhandelt werden.’ Hinzu kommt die Beobachtung, dass quantitative Verfahren 
in den Literatur- und Geisteswissenschaften lange Zeit unter erheblichem Legiti- 


6 http://www.google.de/search?q=lesen&btnG=Nach+B%C3%BCchern+suchen&tbm=bks&tbo 
=1&hl=de (20.12.2017). 

7 Vgl. Steffen Martus und Carlos Spoerhase: »Praxeologie der Literaturwissenschaft«, in: Ge- 
schichte der Germanistik (2009) 35/36, S. 89-96; Marcus Willand: »Replik: Steffen Martus und 
Carlos Spoerhase: Praxeologie der Literaturwissenschaft«, in: Aussiger Beiträge 5 (2011), S. 180- 
184; Carlos Spoerhase: »Big Humanities. »Größe« und »Großforschung« als Kategorien geisteswis- 
senschaftlicher Selbstbeobachtung«, in: Geschichte der Germanistik 37/38 (2010), S. 9-27; Stef- 
fen Martus, Carlos Spoerhase: »Die Quellen der Praxis. Probleme einer historischen Praxeologie 
der Philologie. Einleitung«, in: Zeitschrift für Germanistik 23 (2013) H. 2, S. 221-225, Theorien, 
Methoden und Praktiken des Interpretierens, hg. v. Andrea Albrecht, Lutz Danneberg, Olav Krae- 
mer und Carlos Spoerhase. Berlin 2015; vgl. auch den Beitrag von Friederike Schruhl in diesem 
Band. 
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mationsdruck standen. Vor diesem Hintergrund wird es aufschlussreich sein, ge- 
rade eine genuin quantitative Methodengeschichte fiir die Geisteswissenschaften 
zu rekonstruieren, an die auch in der Zukunft angeschlossen werden kann.® 

Bei genauerer Betrachtung zeigt sich, dass in den gegenwärtigen Literatur- 
und Geisteswissenschaften quantitative Ansätze breit vertreten sind. Doch es ist 
kaum möglich, einen gemeinsamen Nenner dieser Forschung auszumachen. Die- 
ses Desiderat erkannte der Wissenschaftsrat bereits 2012 in den Sozial- und Ver- 
haltenswissenschaften und sprach folgende Empfehlung zur »Weiterentwick- 
lung der wissenschaftlichen Informationsstrukturen in Deutschland bis 2020« 
aus: 


Zur verbesserten Integration von quantitativen und qualitativen Forschungsansätzen in 
den Sozial- und Verhaltenswissenschaften wird der DFG und dem BMBF empfohlen, sich 
abzustimmen und ein Programm auszuschreiben, das Modellprojekte in diesem Bereich 
fördert. Das Programm sollte sich an Wissenschaftlerinnen und Wissenschaftler richten. 
Gegenstand der Ausschreibung sollte einerseits die Bearbeitung einer fachwissenschaftli- 
chen Fragestellung mittels einer Verbindung quantitativer und qualitativer Forschungsda- 
ten und -methoden sein. Darüber hinaus sollten entsprechende Projekte andererseits auch 
zur Weiterentwicklung von Standards und Methoden für die Langzeitverfügbarmachung 
von qualitativen Forschungsdaten beitragen.? 


Diese Forderung einer Interaktion und Vermittlung quantitativer und qualitativer 
Forschungsansätze beschränkt sich nicht auf die Sozialwissenschaften, sondern 
scheint sich zuletzt und im Vergleich zu früheren Versuchen dieser Art nun län- 
gerfristig und über Disziplinengrenzen hinweg auch in einer Institutionalisie- 
rung der Digital Humanities niederzuschlagen. So sind seither, in den fünf Jahren 


8 Ein fachgeschichtlich interessantes Beispiel aus der zweiten Hälfte des 20. Jahrhunderts ist 
gerade das Verschwinden quantitativer Verfahren aus der Literaturwissenschaft, das sich mit 
einem Verweis auf die Geschichte der Linguistik erklären lässt. Diese hatte ab den 1970er Jahren, 
auch im Zuge der Emanzipation von der Literaturwissenschaft, deren quantitative Verfahren in- 
korporiert und weiterentwickelt. So ist in der Sprachwissenschaft Quantitative Linguistik seit 
Jahrzehnten ein etabliertes Spezialgebiet mit ausgeprägter Theoriebildung, eigenen Zeitschrif- 
ten, Lehrbüchern und Lehrstühlen. 

9 Wissenschaftsrat: »Empfehlungen zur Weiterentwicklung der wissenschaftlichen Informa- 
tionsinfrastrukturen in Deutschland bis 2020« (13.07.2012), S. 58. http://www.wissenschafts- 
rat.de/download/archiv/2359-12.pdf (10.08.2013) 
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nach der Empfehlung des Wissenschaftsrates, etwa 50 Digital Humanities-Pro- 
fessuren im deutschsprachigen Raum ausgeschrieben worden.” »Interdisziplina- 
rität« in den DH bedeutet nicht nur, in den D- und H-Disziplinen gemeinsame 
Forschungsfragen oder Forschungsgegenstände zu entwickeln, sondern viel- 
mehr auch, zwischen disziplinspezifischen Formen der Modellierung und Opera- 
tionalisierung von Forschungsfragen auf theoretischer und methodischer Ebene 
zu vermitteln. Diese Vermittlung findet dabei sowohl zwischen den Forschungs- 
positionen selbst als auch zwischen den sie charakterisierenden 
Theorien, Methoden und Praktiken statt. 

Als Übertrag für die quantifizierende Perspektive und gleichsam als leitmoti- 
vische Bedingung für die in diesem Band versammelten Beiträge ist auf diesem 
Wege die Prämisse eines theoriegeleiteten Umgangs mit Daten eingeführt. Die da- 
mit explizierte Korrektiv-Funktion theoretisch entworfener Modelle durch die 
Forderung ihrer praktischen Anwendbarkeit auf Daten funktioniert ebenso vice 
versa als Korrektur eines unsystematischen Umgangs mit Daten durch Theorie. 
Der geisteswissenschaftlich-interdisziplinär ausgerichtete Band mit Fokus auf 
die literaturwissenschaftliche Forschung soll als Plattform dieses Dialogs dienen 
und die Wissenschaftsfähigkeit der disziplinspezifischen Modellierungen auf 
den Prüfstand setzen. Dabei sollen - idealiter ausgerichtet auf die brisante Frage 
nach den Möglichkeiten einer interdisziplinären Standardisierung quantitativer 
Verfahren” - in einem ersten Schritt quantitative Verfahrensmodelle gesichtet, 
Verfahrenskataloge erstellt und gegebenenfalls die Grundlagen für Empfehlun- 
gen von best-practice-Modellen als Antwort auf spezifische Fachfragen vorberei- 
tet werden. 

Der Band fußt auf der Tagung »Scientia Quantitatis. Quantitative Literatur- 
wissenschaft in systematischer und historischer Perspektive«, die im Oktober 
2014 von den Abteilungen für Neuere deutsche Literatur des Instituts für Litera- 
turwissenschaft, dem Stuttgart Research Center for Text Studies der Universität 
Stuttgart und dem Deutschen Literaturarchiv Marbach mit Unterstützung der 


10 Vgl. Patrick Sahle: »Zur Professoralisierung der Digital Humanities«, http://dhd-blog.org/?p 
=6174 (20.12.2017). Teilweise wurden Professuren mehrfach ausgeschrieben; d. h. die Zahl der 
tatsächlichen Professuren ist etwas niedriger. 

11 Vgl. das Sonderheft des Journal of Literary Theory 5 (2011) H. 2, dessen Beiträger auf die Frage 
antworten, ob (und wenn ja, welche) Standards und Normen im Feld der literary studies festzu- 
machen seien. 
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VolkswagenStiftung im Schloss Herrenhausen in Hannover stattfand.” Die Refe- 
rentinnen und Referenten der Tagung haben ihre Beiträge für den Druck überar- 
beitet; weitere Beiträge kamen auf Einladung der Herausgeberinnen und Heraus- 
geber hinzu und erweitern diesen Band. 

Unterschiedliche Ordnungsprinzipien böten sich an, um die Beiträge in die- 
sem Band zu gruppieren. Eine Unterscheidung nach stärker systematischer oder 
stärker historischer Perspektivierung wäre denkbar, eine Unterteilung in Bei- 
träge, die quantitative Ansätze eher praktisch anwenden oder eher methoden- 
theoretisch oder wissenschaftsgeschichtlich reflektieren; schließlich wäre auch 
eine chronologische Reihung hinsichtlich der Gegenstände möglich, die von den 
Beiträgen als Forschungsobjekt in den Blick genommen werden. Denkbar wäre 
auch eine Gliederung nach den Fachgebieten Computerlinguistik und Linguistik, 
Literaturwissenschaft, Archiv- und Handschriftenkunde, Bildungsforschung, 
Wissenschaftsgeschichte und Geographie. Weil jedoch sämtliche Beiträge min- 
destens auf zwei der genannten Bereiche ausgreifen, erschien uns eine ver- 
gleichsweise offene Gliederung nach den zwei Teilen »Applikationen« und »Re- 
flexionen« angemessen. 

Der erste Teil »Applikationen« wird eröffnet durch den Beitrag von Jonas 
Kuhn, der am Beispiel von Abenteuerromanen das textanalytische Potential com- 
puterlinguistischer Verfahren exploriert und in der Form eines Werkstattberichts 
langjährige Kooperationserfahrungen zwischen Computerlinguistik und Litera- 
turwissenschaft reflektiert. Nils Reiter und Marcus Willand nehmen dramatische 
Texte in den Blick, die - anders als erzählende Texte - erst allmählich zu einem 
Forschungsgegenstand quantitativer und computergestützter Analysemethoden 
werden. Besondere Aufmerksamkeit richten sie dabei auf die Operationalisie- 
rung literaturwissenschaftlicher und dramenpoetologischer Fragestellungen. 
Dramenanalytisch ist auch der Beitrag von Christof Schöch, der das Distanzmaß 
Zeta nach John Borrows verwendet, um die Gattungen Komödie, Tragödie und 
Tragikomödie messend miteinander zu vergleichen und so auf methodischer 
Ebene Zeta weiterzuentwickeln. Der poetischen Zusammenarbeit von Bertolt 


12 Vgl. Ruth Kuntz-Brunner: »Zwischen den Zeilen. Mit Technik und Methode«, in: Impulse. Das 
Wissenschaftsmagazin der VolkswagenStiftung 1 (2015), S. 72-75; Peggy Bockwinkel: »Tagungs- 
bericht Scientia Quantitatis - Quantitative Literaturwissenschaft in systematischer und histori- 
scher Perspektive«, 30.09.-02.10.14 in Hannover, in: Glottotheory 6.1 (2015), S. 229-235; Frie- 
derike Schruhl: »Scientia Quantitatis. Quantitative Literaturwissenschaft in systematischer und 
historischer Perspektive (Tagung in Hannover v. 30.9.-2.10.2014)«, in: Zeitschrift für Germanis- 
tik, NF 25.2 (2015), S. 423-424. 
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Brecht mit Elisabeth Hauptmann widmet sich Florian Barth in seiner stilometri- 
schen Studie, gefolgt von Friedrich Michael Dimpel, der Textauszeichnungen in 
den Gattungen Mare und Novelle vornimmt und die gewonnenen Daten narrato- 
logisch evaluiert. Empirische Bildungsforschung und Literaturwissenschaft ver- 
knüpfen Angelika Zirker, Judith Glaesser, Augustin Kelava und Matthias Bauer 
in ihrer Studie, die am Beispiel eines Shakespeare-Sonetts Textverstehen misst. 
Wenn Gabriel Viehhauser mittels quantifizierender Methoden mittelhochdeut- 
sche Tagelieder analysiert und interpretiert, leitet er mit seinem methodologisch 
reflektierten Rekurs auf Forschungen, die aus der Zeit des pra-digitalen Zeitalters 
stammen, tiber auf den zweiten Teil des Bandes. 

Dieser zweite Teil »Reflexionen« beginnt mit einem wissenschaftsgeschicht- 
lichen Abriss zur Verwendungsgeschichte quantitativer Methoden in den letzten 
zwei Jahrhunderten von Toni Bernhart. Cornelis Menke reflektiert kritisch die 
Vorstellung eines Quantifizierungsideals und Friederike Schruhl sichtet aus pra- 
xeologischer Perspektive Forschungsaufsätze in DH-Zeitschriften mit dem Ziel, 
quantifizierende Interpretationspraktiken zu identifizieren. Benjamin Krautter 
nimmt bekannte Verfahren zur Autorschaftsattribution kritisch in den Blick, um 
nach stilometrischen Erweiterungsmöglichkeiten dieser wohl ältesten und pro- 
minentesten quantitativen Verfahren zu fragen. Literaturwissenschaftliche Netz- 
werkanalyse ist das Thema des Beitrags von Carolin Hahn, während Celia Krause 
und Philipp Hegel eine quantitative Kodikologie entwickeln. Ebenfalls mit Netz- 
werken, deren Punkten und Kanten, Grenzen und Weiten beschäftigt sich Anne 
Baillot. Abgeschlossen und zugleich geöffnet wird der zweite Teil durch den Bei- 
trag von Julia Lossau, die das Fach der Geographie auf programmatische Aspekte 
und Verständnisweisen des Quantitativen hin durchmisst. 

Wie danken den Autorinnen und Autoren für ihre Beiträge und die sehr in- 
spirierende und produktive Zusammenarbeit. Anja-Simone Michalski danken wir 
für die Aufnahme unseres Bandes in das Verlagsprogramm von Walter de Gruyter 
und Stella Diedrich für die Begleitung des gesamten Produktionsprozesses. Den 
studentischen Hilfskräften Anja Braun, Martin Kuhn und Florian Barth danken 
wir für ihre gründliche Mitarbeit bei Korrektorat und Texteinrichtung. Dem Deut- 
schen Literaturarchiv Marbach und dem Stuttgart Research Centre for Text Stu- 
dies schulden wir Dank für die Basisfinanzierung dieser Buchveröffentlichung. 
Unser besonderer Dank schließlich gilt der VolkswagenStiftung, die durch ihre 
großzügige Mittelbewilligung diesen Band in dieser Form ermöglicht hat. 


Toni Bernhart, Marcus Willand, Sandra Richter und Andrea Albrecht 
Stuttgart und Heidelberg, im Dezember 2017 


Teil 1: Applikationen 


Jonas Kuhn 

Computerlinguistische Textanalyse in der 
Literaturwissenschaft? Oder: »The 
Importance of Being Earnest« 

bei quantitativen Untersuchungen 


Abstract: In its first part, this article gives some illustrative insights into the spec- 
trum of methods and model types from Computational Linguistics that one could 
in principle apply in the analysis of literary texts. The idea is to indicate the con- 
siderable potential that lies in a targeted refinement and extension of the analysis 
procedures, as they have been typically developed for newspaper texts and other 
everyday texts. The second part is a personal assessment of some key challenges 
for the integration of working practices from Computational Linguistics and Lit- 
erary Studies, which ultimately leads to a plea for an approach that derives the 
validity of model-based empirical text analysis from the annotation of reference 
corpus data. This approach should make it possible, in perspective, to refine 
modeling techniques from Computational Linguistics in such a way that even 
complex hypotheses from Literary Theory can be addressed with differential, 
data-based experiments, which one should ideally be able to integrate into a her- 
meneutic argumentation. 


Einleitung 


Die Computerlinguistik und die Sprachtechnologieforschung entwickeln ihre 
Modelle und Methoden iiberwiegend fiir Gebrauchstexte wie Zeitungsartikel, 
Produktbesprechungen auf Internetseiten, Forenbeitrage in den Sozialen Medien 
etc. Dennoch tiben literarische Texte mit ihren vielfaltigen Herausforderungen an 
die Textanalyse eine große Anziehungskraft auf Computerlinguistinnen und -lin- 
guisten aus und in den wichtigsten Publikationsorganen, den Tagungsbänden 
der großen Computerlinguistikkonferenzen, erscheinen seit vielen Jahren verein- 
zelt, aber immer wieder Beiträge zur Erweiterung von computerlinguistischen 
Analysemodellen, die auf Charakteristika literarischer Texte abzielen.' 


1 Vgl. u.a. David K. Elson, Nicholas Dames und Kathleen R. McKeown: »Extracting social net- 
works from literary fiction«, in: Proceedings of the 48th Annual Meeting of the Association for 
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Die wachsende Aufmerksamkeit für die Digital Humanities — nicht zuletzt 
dank der Förderinitiativen der letzten Jahre im deutschsprachigen Raum - hat 
das Interesse in der Computerlinguistik-Community für interdisziplinäre Zusam- 
menarbeit mit der Literaturwissenschaft weiter verstärkt. Wer sich in einer tech- 
nischen und vorwiegend methodenorientierten Disziplin auf einen Analysege- 
genstand aus einem anderen Fachkontext einlässt, tut dies in dem Bewusstsein 
bzw. in der sicheren Erwartung, dass die etablierten Analysemodelle stark ange- 
passt und erweitert werden müssen (beispielsweise um der Vielschichtigkeit 
eines Erzähltextes gerecht zu werden) und dass in der interdisziplinären Koope- 
ration die methodischen Grundannahmen aus den unterschiedlichen Fächerkul- 
turen sorgfältig herausgearbeitet und die gemeinsame Agenda entsprechend dif- 
ferenziert aufgesetzt werden muss. Der vorliegende Beitrag skizziert einerseits, 
wie die zu erwartenden Anpassungen des methodischen Vorgehens aus Sicht der 
Computerlinguistik aussehen, und wirft andererseits die Frage auf, ob und wie 
diese tatsächlich einen fruchtbaren Beitrag zu literaturwissenschaftlichen Kern- 
fragen leisten können - oder ob die Grundannahmen zur textanalytischen Praxis 
so stark divergieren, dass noch grundlegendere Anpassungen erforderlich wä- 
ren. 

Die Computerlinguistik kann auflange, fruchtbare Kooperationserfahrungen 
mit der theoretischen Linguistik zurückblicken, aus der u. a. Praktiken des quan- 
titativ-korpuslinguistischen Arbeitens mit Werkzeugunterstützung (wie Part-of- 
Speech-Tagging, also automatische Auszeichnung von Wortarten) hervorgegan- 
gen sind. Hierfür waren und sind durchaus unterschiedliche Erkenntnisinteres- 
sen und Arbeitshypothesen abzustimmen — methodisch hat sich die Computer- 
linguistik in den letzten 20 bis 30 Jahren sehr weit von der Linguistik entfernt, es 


Computational Linguistics, ACL ’10. Stroudsburg, PA, USA, 2010 (Association for Computational 
Linguistics), S. 138-147; David Bamman, Ted Underwood und Noah A. Smith: »A Bayesian 
Mixed Effects Model of Literary Character«, in: Proceedings of the 52nd Annual Meeting of the 
Association for Computational Linguistics. Baltimore 2014, S. 370-379; Justine Kao und Daniel 
Jurafsky: »A Computational Analysis of Style, Affect, and Imagery in Contemporary Poetry«, in: 
Proceedings ofthe Workshop on Computational Linguistics for Literature (Conference ofthe North 
American Chapter of the Association for Computational Linguistics: Human Language Technolo- 
gies, NAACL-HLT), Montréal 2012, S. 8-17; Hardik Vala, David Jurgens, Andrew Piper und Derek 
Ruths: »Mr. Bennet, his coachman, and the Archbishop walk into a bar but only one of them gets 
recognized: On the difficulty of detecting characters in literary texts«, in: Proceedings of the 2015 
Conference on Empirical Methods in Natural Language Processing, hg. v. Association for Compu- 
tational Linguistics. Lisabon September 2015; Julian Brooke, Adam Hammond und Graeme Hirst: 
»Using Models of Lexical Style to Quantify Free Indirect Discourse in Modernist Fiction«, in: Dig- 
ital Scholarship in the Humanities (2016). 
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dominieren statistische Modelle der Sprachverarbeitung. Und so hat sich ein Be- 
wusstsein fiir einen methodischen Anpassungsbedarf in Abhangigkeit von lingu- 
istischer Beschreibungsebene — Phonologie, Morphologie, Syntax, Semantik, As- 
pekte der Pragmatik - und theoretischem Ansatz herausgebildet. Aus com- 
puterlinguistischer Sicht erscheint es naheliegend, die Kooperation mit Linguis- 
tinnen und Linguisten als paradigmatisch fiir einen Dialog zwischen der geistes- 
wissenschaftlichen Auseinandersetzung mit Sprache und Text und der komputa- 
tionellen Modellierung von Textanalyseprozessen generell zu betrachten. Der 
Übergang zu literarischen Texten lässt aus dieser Sicht sicherlich besondere Her- 
ausforderungen an die Analysetiefe und die Abstimmung des deskriptiven Be- 
griffsinventars erwarten, also einen intensiveren Anpassungsprozess, aber kei- 
nen grundsätzlich anders gearteten. In konkreten Überlegungen zu möglichen 
Kooperationen zwischen Literaturwissenschaft und Computerlinguistik erweist 
es sich jedoch nicht selten, dass die Herausforderungen weniger in einer schritt- 
weisen Erweiterung der vorhandenen Analysemodelle liegen, sondern vielmehr 
das hermeneutisch geprägte Grundverständnis auf der einen und das stark expe- 
rimentell-datenorientierte Vorgehen auf der anderen Seite selbst kooperations- 
freudige Partner zunächst vor grundsätzlichere Fragen stellen. Diese Situation 
und ein möglicher Ansatz für die Praxis sollen in diesem Aufsatz aus dem Blick- 
winkel eines Computerlinguisten mit Interesse an einer fundierten Erweiterung 
des textanalytischen Methodeninventars diskutiert werden. 

Teil 1 skizziert exemplarisch textanalytische Problemstellungen jenseits der 
etablierten linguistischen Analyseebenen, für die der Computerlinguistik ein In- 
ventar an Modellierungsverfahren zur Verfügung steht, welches sich grundsätz- 
lich um weitere Analyseebenen erweitern lässt. Das übliche Vorgehen besteht in 
einem Aufbrechen einer komplexeren Analyseaufgabe in Teilschritte, für die sich 
die jeweils beabsichtigte Kategorisierung von empirischen Texteigenschaften 
operationalisieren lassen, also auf Basis einer intersubjektiven Übereinstim- 
mung festgelegt werden können. Konkret wird anhand eines Beispiels aus Mark 
Twains Adventures of Tom Sawyer illustriert, welche oberflächenorientierten 
Analyseschritte erforderlich sind, um in Erzähltexten wörtliche Rede den Figuren 
zuzuordnen. 

Viele operationalisierte Analysemodelle lassen sich (i) für qualitative Frage- 
stellungen bei der Textanalyse einsetzen (und sicherlich auch für den Abgleich 
von literaturtheoretischen Hypothesen gegen die Empirie, also einen einzelnen 
Text oder eine kleine Auswahl von Werken); mit der Möglichkeit einer Automati- 
sierung bestimmter Teilanalysen erschließen sich jedoch — mit der nötigen me- 
thodenkritischen Reflexionsbereitschaft - vor allem auch Wege, (ii) ein größeres 
Korpus von Zieltexten hinsichtlich ausgewählter Eigenschaften systematisch zu 
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untersuchen, beispielsweise explorativ im Sinne des Distant Reading oder fiir 
Vergleichsstudien. Im Rahmen des vorliegenden Bandes liegt der Fokus auf (ii), 
also automatisierten Analyseschritten in der Aufbereitung von größeren Korpora 
für mögliche quantitative Fragestellungen. Eine computergestützte Identifika- 
tion und Zuordnung von Figurenrede in Mark Twains Huckleberry Finn soll bei- 
spielhaft verdeutlichen, wie der Einsatz von computerlinguistischen Analysemo- 
dellen es ermöglicht, ein größeres Textkorpus in einer feineren Granularität zu 
erschließen - hier für stilistische Untersuchungen zur Figurenrede - als dies mit 
sängigen quantitativen Verfahren möglich ist. 

Teil 2 soll etwas ausführlicher auf die eingangs angedeutete Problematik ein- 
gehen, die im weitesten Sinn wissenschaftstheoretisch bzw. -soziologisch ist: 
Trotz der großen Dynamik innerhalb der Fachcommunity der Digital Humanities, 
in der aus naheliegenden Gründen ein Ausloten von korpusorientierten Model- 
lierungsmöglichkeiten mit computerlinguistischen Verfahren methodologisch 
relevant ist, erscheinen Vertreter aus den »Kernbereichen« der Literaturwissen- 
schaften (sofern eine derartige Generalisierung überhaupt zulässig ist) vielfach 
reserviert, wenn es um die Frage geht, ob sie einer Argumentation folgen würden, 
die sich teils auf computerlinguistische Analysen stützt. Teil 2 spekuliert über 
Gründe für diese Reserviertheit (im Anschluss an einen Beitrag zur Methodendis- 
kussion des interdisziplinären Autorenteams Hammond/Brooke/Hirst 2013) und 
schließt Überlegungen an, ob und, wenn ja, wie sie auf breiterer Basis zu über- 
winden wäre. 

Diejenigen, die sich gegenüber computergestützten Verfahren in der Litera- 
turwissenschaft offen zeigen (und sie werden immer mehr und sind in der 
deutschsprachigen Digital Humanities-Community recht gut vernetzt), sehen sich 
einer - oft unübersichtlichen - Fülle von technischen Möglichkeiten gegenüber; 
mangels etablierter Arbeitspraktiken zur Integration von klassisch hermeneuti- 
schen Arbeitsschritten und formalisierten Analysemodellen ist zunächst unklar, 
wie sich geeignete Kombinationen methodenkritisch etablieren lassen und wie 
vermieden werden kann, dass Werkzeuge entgegen ihren Anwendungsbedin- 
gungen eingesetzt und so eine irreführende Pseudo-Objektivität erzeugt wird. Zu 
diesem Punkt argumentiert dieser Beitrag abschließend für sehr hohe Standards 
bei der Legitimation eines werkzeuggestützten Analyseschritts, wobei sich diese 
Standards durch eine Probe aufs Exempel etablieren lassen: Dabei wird die Ana- 
lyse des Untersuchungsgegenstandes durch die Analyse eines unabhängig anno- 
tierten »Referenzkorpus« gegengeprüft - unter Beachtung der Regeln der Kor- 
pusannotationspraxis, die auch (und gerade) in den Zuständigkeitsbereich 
hermeneutischer Praxis fallen sollten. Das Ausfindigmachen und die sorgfältige 
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Aufbereitung und Annotation geeigneter Referenzdaten, die in relevanten Eigen- 
schaften als hinreichend repräsentativ für die analytischen Fragestellungen be- 
trachtet werden, ist zwar dem klassisch-hermeneutischen Vorgehen fremd und 
macht ein Umdenken notwendig. Da sich das Vorgehen jedoch sehr flexibel in 
die Textanalysepraxis einbinden lässt, die Optimierung computerlinguistischer 
Modelle rechtzeitig im Projektverlauf ermöglicht und eine kritische disziplin- 
übergreifende Auseinandersetzung mit der Spezifikation der Analysekategorien 
unterstützt, mag es die Basis für eine Synthese aus den Arbeitspraktiken darstel- 
len. 


1 Textanalytisches Potenzial und 
Herausforderungen 


Im Kern geht es der Computerlinguistik darum, Modelle und Algorithmen für die 
syntaktische und semantische bzw. pragmatische Analyse (oder Generierung) 
von sprachlichen Äußerungen zu entwickeln - also die strukturellen Eigenschaf- 
ten von sprachlichen Äußerungen und Texten systematisch zu erfassen und die 
Texte, ausgehend von ihren strukturellen (und lexikalischen) Eigenschaften, in 
Beziehung zu setzen zu einer oder zu mehreren inhaltlichen Ebenen. Inhaltlich 
müssen (a) die wörtliche Bedeutung und (b) die pragmatisch zu erklärenden In- 
halte bestimmt werden, die gleichsam mitverstanden werden und für die der si- 
tuative Kommunikationskontext und der (ggf. sehr weit zu fassende) Diskurskon- 
text zu berücksichtigen sind. In voller Allgemeinheit ist eine formal exakte und 
umfassende Modellierung des menschlichen Vermögens, sprachliche Äußerun- 
gen und Texte zu produzieren und im Kontext zu verstehen, offensichtlich jen- 
seits der realistischen Möglichkeiten - müsste sie doch u. a. unsere Fähigkeit ein- 
schließen, beliebige Inferenzen aus konkurrierenden Interpretationsalternativen 
zu ziehen, um sie gegen den Kontext abzugleichen. Das hierfür notwendige Mo- 
dell wäre dann auch in der Lage, im Prinzip jedes intelligente menschliche Ver- 
halten nachzumodellieren — was die meisten Beteiligten für grundsätzlich un- 
möglich erachten.’ Mit einem breiten Inventar von unterschiedlichen formalen 


2 Inder klassischen Debatte um die Grenzen der künstlichen Intelligenz wird dieses Argument 
gern als KI-Vollständigkeit bezeichnet. Die umfassende Lösung des Problems des Sprachverste- 
hens wäre zugleich eine Lösung für jedes andere Problem, das sämtliche Facetten menschlicher 
Intelligenz erfordert. 
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und algorithmischen Ansätzen, die jeweils einen definierten Ausschnitt der Ge- 
samtproblematik anhand von konkreten Sprach- und Textdaten in validierbarer 
Form erfasst, ist es heute jedoch möglich, belastbare Analyseergebnisse für eine 
Vielfalt von klar definierten Teilaufgaben zu erhalten. Beispielsweise können aus 
Nachrichtentexten Meldungen zu bestimmten Ereignistypen mit großer Verläss- 
lichkeit extrahiert werden (X hat Y für eine Funktion F bestellt oder in der Region 
A ist zum Zeitpunkt T ein Naturereignis N eingetreten); mit der sogenannten Tech- 
nik der Sentimentanalyse kann für wertende Texte einer bekannten Gattung oder 
Untergattung (wie z. B. Produkt- oder Filmrezensionen) die Polarität der subjek- 
tiven Wertung recht zuverlässig automatisch bestimmt werden; maschinelle 
Übersetzung für Textsorten, für die eine große Sammlung von »Trainingsdaten« 
vorliegt, ist auf einem Qualitätsniveau möglich, das vor zehn Jahren noch als völ- 
lig utopisch gegolten hätte. 

Entsprechend liegen Analysemodelle vor, die auf Eigenschaften von literari- 
schen Texten abheben oder so erweitert werden könnten, dass sie zu literaturwis- 
senschaftlichen Fragestellungen relevante Teilanalysen in abschätzbarer Quali- 
tät auf einem größeren, verhältnismäßig homogenen Textkorpus automatisch 
liefern können. So lassen sich beispielsweise Distant Reading-Phasen in einem 
korpusorientierten Vorgehen unterstützen. Im Hintergrund kann dabei durchaus 
eine literaturtheoretische Konzeption stehen, die zusätzlich zu den linguisti- 
schen Ebenen der grammatischen Struktur, der Diskursstruktur, des wörtlich- 
semantischen Textinhalts und der pragmatischen, kontextbezogenen Bedeutung 
weitere interpretations- oder deutungsrelevante Ebenen ansetzt — etwa die Text- 
rezeption in einer bestimmten Epoche vor dem Hintergrund eines etablierten Ka- 
nons. 

In Teil 2 werden wir auf Umstände zu sprechen kommen, die es zunächst 
möglicherweise erschweren oder gar verhindern, dass die bestehenden Möglich- 
keiten zu einer Fülle von Projekten für entsprechende Erweiterungen des compu- 
terlinguistischen Analyseinventars führen. Vorher soll hier zunächst ausführli- 
cher dargestellt werden, wie man sich solche Erweiterungen konkreter vorstellen 
kann. Dabei werden unterschiedliche Typen von Analysekomponenten vorge- 
stellt, mit denen die Computerlinguistik arbeitet (ohne das Spektrum systema- 
tisch abdecken zu wollen). Ein ausführlicheres Beispiel, in dem unterschiedliche 
Analysekomponenten auf Texte von Mark Twain angewandt werden, wird den 
Teil 1 abschließen. 

Zwei grundlegend verschiedene Ansatzpunkte für formalisierte Modelle der 
Textanalyse liegen in einer linguistisch-strukturellen vs. einer distributionellen 
Basis. Der linguistisch-strukturelle Analyseansatz geht von der sprachlichen 
Struktur des Textes aus und operationalisiert Kategorien von analyserelevanten 
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Texteinheiten (z. B. Personennamen? oder Zeitausdrücken), deren Verteilung im 
Text die Modelle dann vorhersagen. Häufig sind mehrere strukturelle Kategorien 
hierarchisch ineinander geschachtelt, d. h. größere Analyseeinheiten werden bei 
der Vorhersage auf darin enthaltene kleinere Einheiten überprüft. Eine mittler- 
weile etablierte Analysemethode* überprüft beispielsweise Textabschnitte (wie 
Kapitel) auf die darin verwendeten Figurennamen, bildet daraus eine Relation 
zwischen Figuren (X und Y tauchen im gleichen Kapitel auf) und kann so für ganze 
Korpora Figurennetzwerkkonstellationen bzw. die jeweilige Entwicklung von Re- 
lationen im Textverlauf analysieren. Durch den Einsatz von computerlinguisti- 
schen Komponenten wie Parsern, die die syntaktische Struktur analysieren 
(etwa: X verdächtigt Y eines Vergehens), ist eine Verfeinerung der automatischen 
Analyse auf inhaltlich ausdifferenzierte Relationen denkbar. 

Der linguistisch-strukturelle Ansatz nähert sich interpretationsrelevanten 
Analysekategorien generell entlang eines Mehrebenenmodells, das die bedeu- 
tungstragenden Ausdrücke strukturell identifiziert und zueinander in Beziehung 
setzt. Algorithmisch kommen für die Umsetzung regelbasierte Komponenten 
ebenso in Frage wie statistische Verfahren, deren Parameter anhand von anno- 
tierten Korpusdaten trainiert werden (das sogenannte »überwachte« maschinelle 
Lernen). Die effektive Kombination von ebenenspezifischen Modulen und ein ro- 
bustes Analyseverhalten bei Texten, die vom Standardszenario (zumeist Nach- 
richtentexte) abweichen, gehören zu den besonderen methodischen Herausfor- 
derungen für die Computerlinguistik. Für klar umrissene Zielkonfigurationen 
lassen sich die Komponenten jedoch häufig gut optimieren (im Sinne einer Maxi- 
mierung der Vorhersagequalität auf vorab annotierten Testdaten). 

Distributionelle Ansätze nähern sich interpretationsrelevanten Analyseka- 
tegorien über Beobachtungen zur Verteilung des lexikalischen Materials (also der 
unterschiedlichen Wortformen) im Text - in der Regel, ohne grammatische Struk- 


3 Fotis Jannidis u. a. verweisen auf die Problematik, wenn bei der Analyse literarischer Erzähl- 
texte ausschließlich Standard-Named Entity Recognition-Systeme aus der Sprachtechnologie 
eingesetzt werden: nicht selten wird auf wichtige Figuren mit definiten Beschreibungen (wie 
»der Gärtner«) referiert. Vgl. Fotis Jannidis, Markus Krug, Isabella Reger, Martin Toepfer, Lukas 
Weimer und Frank Puppe: Automatische Erkennung von Figuren in deutschsprachigen Romanen. 
Digital Humanities im deutschsprachigen Raum (DHd) 2015, Graz, https://opus.bibliothek.uni- 
wuerzburg.de/files/14333/Jannidis_Figurenerkennung_Roman.pdf (31. Juli 2017). 

4 David K. Elson, Nicholas Dames und Kathleen R. McKeown: »Extracting social networks from 
literary fiction«, in: Proceedings of the 48th Annual Meeting of the Association for Computational 
Linguistics, ACL ’10. Stroudsburg, PA, USA, 2010 (Association for Computational Linguistics), 
S. 138-147. 
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turen direkt zu berücksichtigen. Unter einer statistischen Betrachtung von (typi- 
schen vs. atypischen) Wort-Kookkurrenzen oder von Häufigkeitsprofilen des Vo- 
kabulars im textübergreifenden Vergleich lässt sich eine stilistische oder inhalt- 
liche Verwandtschaft von Texten und Textpassagen häufig überraschend präzise 
erschließen. Distributionelle Ansätze erlauben es, die Ähnlichkeit zwischen zwei 
Texten abzuschätzen und zu beziffern (»Wie ähnlich ist das Häufigkeitsprofil der 
Wortformen bei Twains Huckleberry Finn im Vergleich zu Harriet Beecher Stowes 
Uncle Tom’s Cabin?«). Paarweise angewandt auf alle Texte in einer größeren 
Sammlung, kann so ein »unüberwachtes« Clustering durchgeführt werden - 
etwa zur Hypothesengenerierung für Textverwandtschaften, die mit bloßem 
Auge schwer zu erkennen sind. Anders als der linguistisch-strukturelle Ansatz 
erfordern distributionelle Verfahren praktisch keine? sprachspezifische Teilkom- 
ponenten und können damit ohne großen Anpassungsaufwand auf beliebige 
Sprachen und historische Sprachstufen angewendet werden. 

Ein Beispiel für eine Klasse von distributionellen Verfahren, die in der digi- 
talen Literaturwissenschaft als große Erfolgsgeschichte zu bezeichnen sind, sind 
stilometrische Ähnlichkeitsmaße wie Burrows’s Delta.‘ Es hat sich erwiesen, dass 
sich die stilistischen Eigenheiten einer Autorin oder eines Autors sehr stark in der 
relativen Verwendungshäufigkeit der unterschiedlichen Funktionswörter nie- 
derschlagen, so dass das Häufigkeitsprofil etwa der 100 häufigsten Wörter bereits 
bei kurzen Texten wie ein Fingerabdruck auf den Autor schließen lässt.’ Ein an- 
derer verbreiteter distributioneller Ansatz sind sogenannte Topic-Modelle,? 


5 Inder Praxis spielen allerdings sog. Stoppwortlisten (für die häufigsten Funktionswörter einer 
Sprache, d.h. Artikel, Auxiliare etc.) eine wichtige Rolle bzw. Verfahren zur Bestimmung von 
hochfrequenten Eigennamen in einem Text; Hintergrund ist, dass zwar generell die am häufigs- 
ten auftretenden Wortformen Funktionswörter sind, während einzelne Typen von Inhaltswör- 
tern seltener verwendet werden. In einzelnen Texten oder in kleineren, inhaltlich zusammen- 
hängenden Korpora treten jedoch i. d. R. bestimmte Inhaltswörter, insbesondere Eigennamen, 
gehäuft auf. 

6 John Burrows: »Delta<«: A Measure of Stylistic Difference and a Guide to Likely Autorship«, in: 
Literary and Linguistic Computing 17 (2002), S. 267-287; vgl. hierzu auch den Beitrag von Schöch 
(in diesem Band). 

7 U.a. Fotis Jannidis und Gerhard Lauer: »Burrows’s Delta and Its Use in German Literary His- 
tory«, in: Distant Readings. Topologies of German Culture in the Long Nineteenth Century, hg. v. 
Matt Erlin und Lynne Tatlock. Rochester 2014, S. 29-54; Stefan Evert, Thomas Proisl, Fotis 
Jannidis, Steffen Pielström, Christof Schöch und Thorsten Vitt: »Towards a better understanding 
of Burrows’s Delta in literary authorship attribution«, in: Proceedings of the Fourth Workshop on 
Computational Linguistics for Literature. Denver 2015, S. 79-88. 

8 Thomas K. Landauer, Peter Foltz und Darrell Laham: »Introduction to Latent Semantic Anal- 
ysis«, in: Discourse Processes 25 (1998), S. 259-284; David M. Blei, Andrew Y. Ng und Michael I. 
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durch die anhand eines relativ großen Textkorpus Cluster von (semantisch) ähn- 
lichen Wörtern über das Vokabular der Sprache induziert werden - einzig auf- 
srund der angenommenen Tendenz, dass innerhalb eines Textabschnitts eher in- 
haltlich zusammengehörige Wörter auftreten. Die Cluster stehen im Ergebnis 
nicht für eine definierte Bedeutungsdimension (wie z. B. Kulinarik), nähern sich 
interpretierbaren semantischen Wortfeldern jedoch oft an. Allerdings schließt 
das statistisch induktive Verfahren nicht aus, dass ein etabliertes semantisches 
Feld »quer« zu den induzierten Topic-Clustern liegt, weshalb man eine unreflek- 
tierte Gleichsetzung der technischen Topics mit Themenfeldern bei der Meta- 
Analyse vermeiden sollte. 

Topic-Modelle werden vielfältig eingesetzt, um für einen unbekannten Text 
eine »latente semantische Struktur« zu approximieren: ein einmal trainiertes To- 
pic-Modell kann verwendet werden, um ohne einen händischen Eingriff Passa- 
gen zu trennen, in denen die Wörter stark zu unterschiedlichen Cluster-Zugehö- 
rigkeiten tendieren. Die Tatsache, dass kein überwachtes Training erforderlich 
ist, macht Topic-Modelle zu einem attraktiven Explorationswerkzeug; allerdings 
erweist es sich in der Praxis auch als problematisch, dass die Wahl der Modellpa- 
rameter (wie der vorgegebenen Zahl der Topic-Cluster) i. d. R. unterdeterminiert 
ist und es mitunter schwer zu beurteilen ist, welche Modellvorhersagen eine sys- 
tematische Basis haben. In den Digital Humanities wird der methodische Status 
von Topic-Modellen seit Jahren recht ausgiebig diskutiert.? 

Innerhalb der Computerlinguistik kommen sehr weit entwickelte distributio- 
nelle Modelle für korpusbasierte Ansätze zur lexikalischen Semantik zum Einsatz 
(und es ist eine Frage von einiger Brisanz, welches die bestgeeignete Modeller- 
weiterung ist, um die Semantik größerer sprachlicher Einheiten zu erfassen”). 
Gerade dank der erfolgreichen Neuauflage von Lernverfahren, die mit künstli- 
chen neuronalen Netzen arbeiten (dem sog. »Deep Learning«), haben »neuro- 
nale« distributionelle Modelle große Verbreitung gefunden - am bekanntesten 


Jordan: »Latent dirichlet allocation«, in: Journal of machine Leaming research 3 (2003), S. 993- 
1022. 

9 Clay Templeton: Topic Modeling in the Humanities: An Overview. Maryland Institute for Tech- 
nology in the Humanities, 2011. http://mith.umd.edu/topic-modeling-in-the-humanities-an-over- 
view (28. April 2017); Megan R. Brett: »Topic Modeling: A Basic Introduction«, in: Journal of 
Digital Humanities 2012, S. 12-17. 

10 U.a. Beiträge in Cécile Fabre und Alessandro Lenci: TAL Journal: Special issue on Distribu- 
tional Semantics (Traitement Automatique des Langues / Natural Language Processing) 56.2 
(2015). 
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ist hier das word2vec-Modell." Jede Wortform einer Sprache wird in einem neuro- 
nalen Modell als ein Zahlenvektor mit beispielsweise 1000 Dimensionen reprä- 
sentiert, wobei die Zahlenwerte der Aktivierungsstärke bestimmter Neuronen 
entsprechen; ähnliche Wörter werden durch ähnliche Aktivierungsprofile über 
die Dimensionen hinweg repräsentiert. Das große Potenzial der Modelle rührt da- 
her, dass sich die Aktivierungslevels für eine bestimmte Wortform in einem zy- 
klischen Lernprozess, der ein (meist sehr großes) Textkorpus in vielen Iterationen 
durchläuft, selbständig »einpegeln«. Die Tendenz zweier Wortformen zur Kook- 
kurrenz führt in einem hochgradig verflochtenen Neuronennetzwerk zur Verstär- 
kung der Synapsen zwischen denjenigen Neuronen, die jeweils charakteristische 
Worteigenschaften repräsentieren. Dabei geht die datengesteuerte Induktion der 
»dichten« konnektionistischen Repräsentation Hand in Hand mit der Ausprä- 
gung der Synapsen — sodass im Laufe des Trainings eine kompakte Darstellung 
entsteht (qua »Bootstrapping«), die gerade jene Generalisierungen erfasst, die 
sich in beobachtbaren Mustern im Korpus niederschlagen. Für das word2vec-Mo- 
dell basiert das Training auf einem Kontextfenster von fünf Wörtern, deren Vek- 
tor-Repräsentationen sich wechselseitig beeinflussen. Sehr viel Beachtung ha- 
ben die Analogieschlüsse gefunden,” zu denen dieses Modell im Ergebnis in der 
Lage ist: man kann dasjenige Wort X bestimmen, dessen Vektor zu dem eines 
vorgegebenen Ausgangsworts (z. B. actor) am ehesten im gleichen Verhältnis 
(also actor : X) steht wie die Vektoren eines anderen Wortpaares (z.B. king : 
queen), und in sehr vielen Fällen führt dies zum erwarteten Ergebnis (hier X = 
actress) — obgleich im Training keinerlei explizite semantische Information zur 
Verfügung gestellt wurde: das Lernen basiert ausschließlich auf reinen Oberflä- 
chenfolgen von Wörtern in einem Korpus (welches allerdings sehr umfangreich 
sein sollte, um robuste Ergebnisse zu erzielen). 

Die Kombination von Analysekomponenten. Gerade für anspruchsvollere 
analytische Fragestellungen, wie sie wohl mit den meisten literaturwissenschaft- 
lichen Untersuchungen zu einem Text oder einem Textkorpus einhergehen (also 
jenseits der reinen Text- bzw. Korpusexploration), kann die unmittelbare Anwen- 
dung computerlinguistischer Standardmodelle und -werkzeuge zu Ergebnissen 
führen, die nur eingeschränkt aussagekräftig sind. Etablierte linguistisch-struk- 
turelle Werkzeuge sind in der Regel auf kanonische linguistische Analyseebenen 


11 Tomas Mikolov, Greg Corrado, Kai Chen und Jeffrey Dean: Efficient estimation of word repre- 
sentations in vector space. 2013. arXiv preprint. arXiv:1301.3781. 

12 Vgl.u. a. Omer Levy und Yoav Goldberg: »Linguistic Regularities in Sparse and Explicit Word 
Representations«, in: Proceedings of the Eighteenth Conference on Computational Language 
Learning, 2014, S. 171-180. 
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(z. B. syntaktische Dependenzstruktur) und/oder typische anwendungsrelevante 
Kategorien (z. B. Namen von Personen, Firmen, Produkten und »geopolitischen 
Entitäten«) ausgerichtet und optimiert - eine literaturwissenschaftliche Untersu- 
chung will jedoch zumeist auf eine davon abweichende Zielstruktur oder Katego- 
risierung hinaus.” Zudem wurden die verfügbaren Werkzeuge in aller Regel auf 
gegenwartssprachlichen Nachrichtentexten entwickelt und bedürfen der Anpas- 
sung, will man andere Sprachregister und historische Sprachstufen mit ver- 
gleichbaren Qualitätsansprüchen analysieren. 

Bei unmodifizierten distributionellen Werkzeugen dürfte (trotz der Unab- 
hängigkeit von Spezifika der Subsprache bzw. des Sprachstadiums) häufig deren 
»strukturelle Blindheit« zu Einschränkungen bei der Interpretierbarkeit führen — 
für sie manifestiert sich jede Textpassage ausschließlich in den Häufigkeiten der 
darin auftretenden Wortformen. Zwar können Filter angesetzt werden, die den 
Blick auf einen Ausschnitt des Vokabulars lenken (z. B. durch Ausschluss mittels 
Stoppwortliste), diese fungieren jedoch global und können kontextuelle Abhän- 
gigkeiten nicht berücksichtigen. Gut illustriert wird die Problematik durch das 
einfache Beispiel der Negation. Eine Passage wie X hatte weder den Mut für die 
Reise, noch war er ein Kenner des Landes könnte unter einem distributionellen 
Ansatz die Figur X mit Eigenschaften in Verbindung bringen, die ihr explizit ab- 
gesprochen werden (da sie im Skopus der Negation weder ... noch ... stehen). Von 
größerer praktischer Relevanz dürfte diese Problematik bei längeren Einbettun- 
gen sein, wie Sprüngen in der Erzählebene oder Schilderungen der Sinneswahr- 
nehmung einer Figur. Aber bereits die Zuordnung von distributionell erfassten 
semantischen Eigenschaften zu Figuren, Orten o. 4. - unabhängig von einer mög- 
lichen Negation oder modalen Einbettung - lässt sich nur mit einer strukturbe- 
zogenen Erweiterung der Basismodelle präzise erfassen. 

Bestehende computerlinguistische Werkzeuge und Modelle können aller- 
dings in vielen Fällen so erweitert und/oder kombiniert werden, dass sie für wei- 
tergreifende analytische Aufgaben eingesetzt werden können. (Nicht zuletzt des- 
halb stellt die mögliche Einbeziehung von Fragestellungen zu literarischen 
Texten eine attraktive Perspektive für die Computerlinguistik dar.) 

Im verbleibenden Teil dieses Abschnitts soll ein konkretes Beispiel angeführt 
werden, das einerseits verdeutlicht, wie stark auf bestehende Lösungen aufge- 
baut werden kann, andererseits aber auch zeigt, dass für tragfähige Ergebnisse 


13 Vgl. auch Fotis Jannidis u. a.: Automatische Erkennung von Figuren in deutschsprachigen Ro- 
manen. 
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zusätzliche Arbeit bei der Modellentwicklung notwendig ist (ebenso für die Ent- 
wicklung von Arbeitspraktiken, die automatische Werkzeuge geeignet in ein me- 
thodenkritisches Vorgehen einbetten). 

Ausgangspunkt sei — zu rein illustrativen Zwecken - eine konventionelle dis- 
tributionelle Vergleichsanalyse einiger Texte von Mark Twain und einer Anzahl 
von möglichen Vergleichstexten, die rasch aus volltextdigitalisiert verfügbaren 
Quellen zusammengestellt wurde” - den Romanen aus Mark Twains Zyklus um 
Tom Sawyer und Huckleberry Finn: The Adventures of Tom Sawyer (1876), Adven- 
tures of Huckleberry Finn (1884), Tom Sawyer Abroad (1894), Tom Sawyer, Detec- 
tive (1896), Twain: The Prince and the Pauper (1881, historischer Roman, der im 
16. Jh. am englischen Königshof spielt), Roughing It (1872, Reiseberichte, teils au- 
tobiographisch), Following the Equator (1897, Reisebericht); Harriet Beecher 
Stowe: Uncle Tom’s Cabin (1852, Roman, der die Sklaverei thematisiert); Thomas 
Bailey Aldrich: The Story of a Bad Boy (1870, Abenteuererzählung), Booth Tar- 
kington: Penrod (1914, Abenteuererzählung); Artemus Ward: To California and 
Return (Teil 4 der gesammelten Werke, Reiseberichte). 

Abbildung 1 zeigt eine einfache distributionelle Analyse, in der aufgrund der 
Ähnlichkeit in der Häufigkeitsverteilung des Textvokabulars ein hierarchisches 
Clustering über allen Texten erzeugt wurde. 


twain:tom_abroad 
twain:huck 
twain:tom_detective 
stowe:uncle_tom 
twain:roughing 
twain:equator 
twain:prince 


ward:california 
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Abb. 1: Hierarchisches Clustering nach distributioneller Ähnlichkeit 


14 Die Untersuchung basiert auf der Version der Texte auf gutenberg.org. 
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Die Baumdarstellung enthält in den feiner verzweigten Ästen jeweils die ähn- 
lichsten Texte. Insgesamt scheint die Anordnung auf den ersten Blick die grobe, 
intuitive Erwartungen zu erfüllen, dass sich verwandte Handlungsorte der Texte 
und ähnliche gesellschaftliche Umstände stark in der Lexik niederschlagen: Twa- 
ins Abenteuerromane aus dem Tom Sawyer-Zyklus, lokalisiert in der Sphäre der 
Südstaaten, bewegen sich im gleichen Bereich, Uncle Tom’s Cabin findet sich in 
ihrer Nähe; hingegen clustert sich beispielsweise Twains Reiseliteratur eher mit 
Wards Reiseberichten. 

Überraschend erscheint dann jedoch, dass der Vergleich von The Adventures 
of Tom Sawyer (in Abbildung 1 bezeichnet als twain:tom) und den anderen Tom 
Sawyer/Huckleberry Finn-Romanen zu einer relativ geringen Ähnlichkeit führte 
(wohingegen ersterer Roman erwartungsgemäß recht große Ähnlichkeiten mit 
den ähnlich lokalisierten Abenteuerromanen The Story of a Bad Boy und Penrod 
von Aldrich und Tarkington aufwies). Die detailliertere distributionelle Analyse 
mit einem Topic-Modell” - illustriert in Abbildung 2 auf der Folgeseite - hilft da- 
bei, eine plausible Erklärung zu finden.’ 

In dieser Abbildung werden die Texte durch Säulen repräsentiert, die sich zu 
jeweils unterschiedlichen Anteilen aus Wörtern konstituieren, die das zugrunde- 
liegende Topic-Modell jeweils einem von zehn verschiedenen induzierten Topic- 
Clustern zugeordnet hat. Die drei späteren Tom Sawyer/Huckleberry Finn-Ro- 
mane - Adventures of Huckleberry Finn (6. Säule von links), Tom Sawyer Abroad 
(10.), sowie Tom Sawyer, Detective (11.) - enthalten jeweils einen sehr dominan- 
ten Anteil des hellblau dargestellten Topics #3 — welches in den ursprünglichen 
Adventures of Tom Sawyer (9. Säule) praktisch fehlt. Betrachtet man die dominan- 
ten Wortformen, die dieses Topic prägen, wird deutlich: es handelt sich um dia- 
lektal-umgangssprachliche Formen (»ain’t, didn’t, warn’t«) - die drei Romane 
sind alle aus der Perspektive von Huckleberry Finn in Ich-Form und in der Um- 
gangssprache des »Pike County dialect« verfasst” (die Adventures of Huckleberry 
Finn beginnen beispielsweise wie folgt: You don’t know about me without you have 


15 Die Analyse wurde mit dem Mallet-Toolkit (mallet.cs.umass.edu) durchgeführt. Ein Tutorium 
zu einfachen Analysen findet sich unter https://de.dariah.eu/tatom/topic_model_mallet.html 
(31. Juli 2017). 

16 Die Topic-Analyse in Abbildung 2 enthält mit The Rector of Veilbye (1829) zusätzlich die eng- 
lische Übersetzung einer Novelle des Dänen Steen Blicher. Es gab Debatten, ob Twain die Hand- 
lung zu Tom Sawyer, Detective aus dieser Erzählung übernommen habe. 

17 David Carkeet: »The Dialects in Huckleberry Finn«, in: American Literature 51.3 (1979), 
S. 315-332 (zitiert nach Sieglinde Lemke: The Vernacular Matters of American Literature. New 
York 2009). 
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read a book by the name of The Adventures of Tom Sawyer; but that ain’t no mat- 
ter). Dagegen ist The Adventures of Tom Sawyer in dritter Person von einem all- 
wissenden Erzähler geschildert (der sich möglicherweise besonders stark in To- 
pic #8 niederschlägt - charakteristisch sind hier Wörter wie »boy, boys, began«). 


Topics in different texts 
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Abb. 2: Latente Topic-Analyse verschiedener Texte Mark Twains und einiger Vergleichstexte 


Ein sehr textspezifisch charakteristisches Topic ist im übrigen #9, das fast aus- 
schließlich in Twains The Prince and the Pauper (7. Säule) zum Tragen kommt. Es 
wird von der historischen englischen (Hof-)Sprache dominiert und enthält im 
Kern »thou, thy, Lord«. 

Die rein distributionelle Analyse der Gesamttexte lässt bereits erahnen, dass 
bei Mark Twain eine Differenzierung der stilometrischen Untersuchungen nach 
Figurenrede (ggf. im Vergleich zu unterschiedlichen Erzählerstimmen) zu einer 
reicheren Grundlage für Detailanalysen führen dürfte. Eine solche Differenzie- 
rung ist nur möglich, wenn der distributionelle Ansatz mit einem linguistisch- 
strukturellen Vorgehen gekoppelt wird: aus dem Erzähltext muss die wörtliche 
Rede extrahiert werden und den unterschiedlichen Figuren zugeordnet werden, 
so dass beispielsweise die gesamte Figurenrede von Tom Sawyer und von Jim dis- 
tributionell untersucht werden kann; ebenso müssen die verbleibenden Textpas- 
sagen extrahiert werden, die der Erzählerstimme zuzuordnen ist. 
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Der linguistisch-strukturelle Anteil dieser Analyseaufgabe ist klar umrissen 
und kann zu einem guten Teil auf bestehende Komponenten zurückgreifen. Den- 
noch ist die Aufgabe alles andere als trivial, wie im Folgenden kurz ausgeführt 
werden soll. Beispiel (T1) ist eine Passage aus The Adventures of Tom Sawyer, 
Kapitel 3. 


(T1) 
Tom turned homeward alone. 
As he was passing by the house where Jeff Thatcher lived, he saw a new girl in the garden. 
[400 Wörter, ohne Verwendung des Eigennamens »Tom«] 
He returned, now, and hung about the fence till nightfall, »showing off,« as before; but the 
girl never exhibited herself again, though Tom comforted himself a little with the hope that 
she had been near some window. [...] 
All through supper his spirits were so high that his aunt wondered »what had got into the 
child.« He took a good scolding about clodding Sid, and did not seem to mind it in the least. 
He tried to steal sugar under his aunt’s very nose, and got his knuckles rapped for it. He 
said: 
»Aunt, you don’t whack Sid when he takes it.« 
»Well, Sid don’t torment a body the way you do. You’d be always into that sugar if I warn’t 
watching you.« 


In Bezug auf diese Passage besteht unsere Analyseaufgabe konkret Aufgabe da- 
rin, die beiden Äußerungen am Ende des Ausschnitts jeweils einer Figur zuzu- 
ordnen. Die korrekte Lösung ist: die erste Äußerung stammt von Tom, die zweite 
von Tante Polly. Um zu diesem Ergebnis mit einem algorithmischen Verfahren zu 
gelangen, sind in einer Reihe von (Standard-)Analyseschritten relevante Ent- 
scheidungen zu treffen: 

(1) Tokenisierung (und Satzerkennung): dieser Standardschritt der Vorverar- 
beitung überführt den digitalisierten Text in eine Folge von sog. Tokens, d.h. 
Basisanalyseeinheiten für alle weiteren Schritte. In erster Näherung werden Leer- 
zeichen und Zeilenumbrüche zur Trennung von Tokens herangezogen; außer- 
dem muss jedoch bei Interpunktionssymbolen eine Entscheidung getroffen wer- 
den: ein Punkt bei einer Folge wie Mr. Walters ist Bestandteil eines Tokens »Mr.«, 
alle Punkte in der Passage (T1) markieren jedoch eine Satzgrenze. Tokenisierung 
und Satzgrenzenerkennung greifen also ineinander. Für die Redezuordnung 
stellt sich bereits in diesem Schritt eine nicht immer triviale Aufgabe: Textpassa- 


18 David K. Elson und Kathleen R. McKeown: »Automatic attribution of quoted speech in liter- 
ary narrative«, in: Proceedings of the Twenty-Fourth AAAI Conference on Artificial Intelligence 
(AAAI 710) 2010. AAAI Press, S. 1013-1019. 
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gen, die (hier) in doppelten Anführungszeichen eingeschlossen sind, sind Kan- 
didaten für wörtliche Rede; (T1) enthält allerdings zwei Verwendungsbeispiele 
von Anführungszeichen, die keine direkte Rede signalisieren (bei »showing of« 
handelt es sich um einen modalisierenden Gebrauch; »what had got into the 
child« dürfte einen nicht ausgesprochenen Gedanken wiedergeben, der (vermut- 
lich) nicht die gleiche Behandlung wie wörtliche Rede erfahren sollte. Als Indi- 
katoren für wörtliche Rede wird man neben den Anführungszeichen Inquit-For- 
meln (He said:), sowie die Typographie (Zeilenumbrüche) und typische Muster 
(längere Dialogsequenzen, auch ohne Inquit-Formeln) heranziehen. 

(2) Wortartenerkennung, einschl. Erkennung von Eigennamen: ein Analyse- 
schritt, der mit recht hoher Analysequalität automatisch durchgeführt werden 
kann, ist die Zuweisung von Wortkategorien zu den Tokens (das sog. Part-of- 
Speech-Tagging). PoS-Tagger erzielen oft auch für Subsprachen oder Sprachstu- 
fen, für die eine detailliertere automatische Analyse problematisch ist, passable 
Ergebnisse. In der Regel werden in diesem Schritt die Bestandteile typischer 
Eigennamen (wie wir sie für die Zuordnung der wörtlichen Rede benötigen) er- 
kannt; für komplexere Ausdrücke, die auf Figuren referieren (z. B. the minister), 
können evtl. Muster von Wortartenfolgen definiert werden. 

Neben der Wortartenerkennung ist in der Sprachtechnologie auch die spezi- 
ellere Aufgabe der Erkennung von Eigennamen etabliert (unter der etwas irrefüh- 
renden Bezeichnung Named Entity Recognition (NER), wobei nicht wirklich Enti- 
täten erkannt werden, sondern Namen im Text, die i.d.R. auf Entitäten 
referieren). Die Aufgabe beinhaltet, Beginn und Ende eines Namensausdrucks zu 
identifizieren. Für viele anwendungsrelevante Informationsextraktions-Aufga- 
ben ist eine präzise und umfassende Erkennung von Entitätenbezeichnungen 
beispielsweise von Personen, Firmen, Produkten etc. sehr zentral, und so gibt es 
unabhängig von PoS-Taggern NER-Komponenten, die häufig auch für Spezial- 
aufgaben angepasst werden können. 

Wie Beispiel (T1) zeigt, ist eine Beschränkung auf Schritt (1) und (2) für die 
Rede-Zuordnung nicht ausreichend: würde man z. B. für die Äußerung »Aunt, 
you don’t whack Sid when he takes it.« den nächstliegenden Eigennamen im Vor- 
kontext suchen, würde man sie womöglich fälschlicher Weise Sid zuordnen. Für 
eine zuverlässige Analyse müssen anaphorische Pronomina wie das Personalpro- 
nomen in He said auf die Figuren abgebildet werden. Bevor dies ermöglicht wer- 
den kann, ist ein zusätzlicher vorbereitender Zwischenschritt erforderlich: 

(3) Grammatische Analyse: Für vielfältige weitergehende Analysen ist eine 
Erfassung der syntaktischen Struktur der Sätze erforderlich — eines der klassi- 
schen Forschungsgebiete der Computerlinguistik. Es wird zwischen einer Depen- 
denzanalyse (in der die grammatischen Relationen zwischen den Wörtern im 
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Vordergrund stehen - he als Subjekt von said) und einer Phrasenstruktur- oder 
Konstituentenanalyse unterschieden (die z. B. the girl oder auch his aunt’s very 
nose als Nominalphrasen erkennt, daneben aber ebenso Ein-Wort-Nominalphra- 
sen wie himself und she). Um die Referenzen auf Figuren zusammenzuführen, ist 
in unserem Zusammenhang vor allem eine Konstituentenanalyse erforderlich; 
viele interpretationsrelevante Analysen können jedoch robust auf einer Depen- 
denzanalyse aufbauen. Für die automatische grammatische Analyse, das 
Parsing, gibt es unzählige Modellierungsansätze, die teils mehr, teils weniger ex- 
plizites grammatisches Regelwissen voraussetzen - in den letzten Jahren durch- 
gesetzt haben sich statistische Ansätze, in die Regelwissen indirekt durch über- 
wachtes Training auf handannotierten Korpora (sog. Baumbanken) eingeht. Da 
eine vollständige Annotation von syntaktischen Strukturen sehr zeitaufwändig 
ist, liegen qualitativ hochwertige Parser nur für relativ wenige Sprachen bzw. 
Sprachstadien/Subsprachen vor. In letzter Zeit wird jedoch an Parsern gearbeitet, 
die sprachenübergreifend eine robuste (grobe) Analyse ermöglichen.” 

(4) Koreferenzanalyse: In diesem Schritt werden alle Kandidaten für referie- 
rende Ausdrücke (d.h. in etwa alle Nominalphrasen) in einem Text herangezo- 
gen, und es wird entschieden, welche davon auf die gleiche (reale oder fiktionale, 
evtl. auch abstrakte) Entität referieren und deshalb in die gleiche Koreferenzkette 
eingeordnet werden.” Zum Einsatz kommen dabei heute zumeist maschinelle 
Lernverfahren, die eine Vielzahl von Indikatoren in Rechnung stellen und inso- 
fern sowohl grammatische Kriterien (wie die Genus-Kongruenz von Pronomina 
mit ihrem Antezendens) als auch beispielsweise Muster der lokalen Textkohä- 
renz (bereits eingeführte stark saliente Entitäten verbleiben überwiegend in der 
Rolle des Subjekts) einbeziehen und zueinander gewichten. 

In (T2) ist das Ergebnis einer manuellen Koreferenzanalyse für unsere Text- 
passage illustriert; Zahlenindices und unterschiedliche typographische Hervor- 
hebungen verdeutlichen die entstehenden Ketten (nicht hervorgehoben sind ei- 
nige referentielle Ausdrücke, die hier nur einmal auftauchen, wie Jeff Thatcher 


19 Ryan T. McDonald, Joakim Nivre, Yvonne Quirmbach-Brundage, Yoav Goldberg, Dipanjan 
Das, Kuzman Ganchev und Keith B. Hall: »Universal Dependency Annotation for Multilingual 
Parsing«, in: Proceedings of the 51st Annual Meeting of the Association for Computational Linguis- 
tics (ACL), Sofia 2013, S. 92-97. 

20 Anders Björkelund und Jonas Kuhn: »Learning Structured Perceptrons for Coreference Res- 
olution with Latent Antecedents and Non-local Features«, in: Proceedings of the 52nd Annual 
Meeting of the Association for Computational Linguistics, Baltimore 2014, S. 47-57; Ina Rösiger 
und Jonas Kuhn: »IMS HotCoref DE: A Data-Driven Co-Reference Resolver for German«, in: Pro- 
ceedings of the Tenth International Conference on Language Resources and Evaluation (LREC 
2016). Portoroz 2016, S. 155-160. 
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und the garden; in der Trennung der Bezüge auf wiederkehrende Figuren von Ne- 
benfiguren oder Gegenständen liegt jedoch eine der großen Herausforderungen 
für die automatische Analyse). 


(T2) 
Tom; turned homeward alone. 
As he: was passing by the house where Jeff Thatcher lived, he: saw anew girl, in the garden. 
[400 Wörter, ohne Verwendung des Eigennamens »Tom«] 
He; returned, now, and hung about the fence till nightfall, »showing off,« as before; but the 
girl» never exhibited herself» again, though Tom: comforted himself) a little with the hope 
that she- had been near some window. |...] 
All through supper his; spirits were so high that [hisı aunt]; wondered »what had got into 
the child:.« He: took a good scolding about clodding Sid,, and did not seem to mind it in 
the least. He: tried to steal sugar under [his aunt];’s very nose, and got his; knuckles rapped 
for it. He: said: 
»[Aunt]3, [you]; don’t whack Sid, when he, takes it.« 
»Well, Sid, don’t torment a body the way you: do. You:’d be always into that sugar if [I]; 
warn’t watching youı.« 


Anhand des Beispiels dürfte deutlich werden, dass eine Automatisierung der 
Analyse auf längeren Erzähltexten alles andere als trivial ist: der Eigenname Tom 
als Anker für eine Vielzahl von anaphorischen Ausdrücken taucht über lange 
Strecken nicht auf; beim Lesen trägt nicht selten das Inhaltsverständnis zur Auf- 
lösung von referentiellen Ambiguitäten bei. Eine vollautomatische Analyse kann 
daher derzeit nicht als Basis für streng quantitative Untersuchungen herangezo- 
gen werden; mit heuristischen Filtern oder einer manuellen Nachanalyse er- 
schließen die verfügbaren Koreferenz-Werkzeuge jedoch erhebliche Textberei- 
che für eine Figurenanalyse, die von einem konventionellen namensbasierten 
Verfahren nicht berücksichtigt werden können. 

Die Zuordnung der vorletzten Äußerung im Ausschnitt als wörtliche Rede 
Toms würde (bei einer perfekten Koreferenzanalyse) mit den dargestellten Ana- 
lyseschritten (1)-(4) korrekt erfasst. Die letzte Äußerung (von Tante Polly) zeigt 
jedoch, dass die Schritte im allgemeinen Fall immer noch nicht eindeutig zum 
korrekten Ergebnis führen. Es fehlt eine Inquit-Formel. Die Leserin oder der Leser 
erschließt aus mehreren Indikatoren, dass es sich beim direkten Gegenüber in 
dem einsetzenden Dialog um Polly handeln muss: (i) im vorangegangenen Satz 
sind es bereits Tom und seine Tante, die miteinander interagieren (recht schmerz- 
haft für Tom ...); (ii) Toms Äußerung enthält eine Vokativ-Anrede der Tante; (iii) 
auf Sid, der als weitere Figur in der Passage salient ist, wird in beiden Äußerun- 
gen in der dritten Person referiert, so dass er vermutlich nicht unmittelbar zuge- 
gen ist. Nicht alle diese Aspekte ließen sich wohl in einem Computermodell er- 
fassen, aber das Beispiel verdeutlicht, dass für eine verlässliche Redezuordnung 
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in Erzähltexten ein Schritt (5) der Dialogmodellierung angemessen wäre. Dia- 
logmodelle werden in der Sprachtechnologie bislang hauptsächlich in interakti- 
ven Dialogsystemen und für die Aufgabe des sogenannten Speaker Tracking ein- 
gesetzt. Eine Übertragung und Anpassung auf literarische Texte ist jedoch 
denkbar. (Zu erwarten wäre sicherlich ein hoher Grad an Genre- und Autorenab- 
hängigkeit; der introspektive Leseeindruck ist, dass die Muster der Zuordnung 
teilweise stark konventionalisiert sind.”) 

Für die hier skizzierte Beispielstudie hat der Autor die Schritte (1)-(4) mit 
Analysewerkzeugen aus der Stanford CoreNLP-Sammlung durchgeführt.” Das 
Ergebnis der automatischen Koreferenz-Erkennung kann nicht ohne Nachberei- 
tung verwendet werden, ist jedoch an vielen Stellen korrekt. Abbildung 3 zeigt 
einen Ausschnitt aus der Ausgabe, die sich für unsere Passage ergibt, visualisiert 
mit dem Explorationswerkzeug ICARUS.” Jede Koreferenzkette ist mit einem nu- 
merischen Index markiert und in einem eigenen Grünton hervorgehoben. 


21 Zusätzlich verkompliziert wird die Modellierung, wenn sich in der fiktionalen Welt mehrere 
Wahrnehmungsebenen überlagern; so geben sich in Huckleberry Finn in einer Passage in Kapitel 
41 Tom und Huck als Sid und Tom aus; entsprechend werden sie in der wörtlichen Rede der 
Dialoge angeredet, die Einbettung in die Erzählersicht (Hucks Sicht) referiert jedoch auf die tat- 
sächlichen Identitäten - abgesehen von einigen Passagen, in denen er die Ebenen durch Refe- 
renz mit Anführungszeichen andeutet: »So away I shoved, and turned the corner, and nearly 
rammed my head into Uncle Silas’s stomach! He says: »Why, Tom! Where you been all this time, 
you rascal?« »I hain’t been nowheres,< I says, »only just hunting for the runaway nigger - me and 
Sid.« [...] So then we went to the post-office to get »Sid«« (Twain: Huckleberry Finn, Kap. 41). 

22 stanfordnlp.github.io; Werkzeuge fiir die Analyse von deutschen Texten sind über die 
CLARIN-D-Infrastruktur verfügbar (www.clarin-d.de). 

23 Markus Gärtner, Anders Björkelund, Gregor Thiele, Wolfgang Seeker und Jonas Kuhn: »Vis- 
ualization, Search, and Error Analysis for Coreference Annotations«, in: Proceedings of the 52nd 
Annual Meeting of the Association for Computational Linguistics: System Demonstrations. 2014; 
Markus Gärtner, Katrin Schweitzer, Kerstin Eckart und Jonas Kuhn: »Multi-modal Visualization 
and Search for Text and Prosody Annotations«, in: Proceedings of the 53rd Annual Meeting ofthe 
Association for Computational Linguistics: System Demonstrations. Peking 2015, http://www.ims. 
uni-stuttgart.de/forschung/ressourcen/werkzeuge/icarus.html (31 Juli 2017). 
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39: tomy! came up to 16 the fence]*® and leaned on rgs , grieving , and hoping 58 fshe]”® would tarry y 
H ishe” halted a moment]>> on the steps and then moved toward the door . 


: tomy! heaved a great sigh as” [she]? put = [her]? foot on the threshold . 


42: But 54r ihis]! face)" lit up , right away , for?’ [she]? tossed fa pansy] over 16 the fence]*® a mon 


H 32 [The boy]? ran around and stopped within Sia foot]”° or two of the flower , and then?” [shaded 52 hie 


44: Presently 32 They picked up a straw and began trying to balance” it]? on 62/92 his? nose]? , with >2 


45: But only for a minute -- only while” [he] could button 6l the flower inside 32 his”? jacket , nextepeIr 
: 52 HeJ”? returned , now , and hung about tî [the fence]*® till nightfall , `` showing off , " as before ; but” 
47: Finally 52 They strode home reluctantly , with 52 this}? poor head full of visions . 

48: All through supper Seiki. spirits were so high that °P Ihisp” aunt}? wondered `` what had got into 
: °*[He}>? took °*fa good scolding]°* about clodding >°[sia]°° , and did not seem to mind ““[it]®* in the le 


k 52 THe} tried to steal sugar under © [° [his]? aunt 's 62 very nose]®2]° , and got 32 Chisp?? knuckles rap 
Br 


[He] said: `` © [Aunt]® 7 5 you do n't whack 30rd when 30 ihe]? takes 62 702720 a 
52: `` Well, 30 rsig >? do n't torment a body Sithe way. 5 [you] do. 
53: SSos 'd be always into that sugar f war]? n't watching 5 you]? a" 
54: Presently §5Tshe]®° stepped into the kitchen , and Hisia? , happy in 30 fhis]? immunity , reached for thi 
55: But 3° sid m fingers slipped and the bowl dropped and broke . 
56: tomy! was in ecstasies . 
57: In such ecstasies that’ [he]! even controlled this]! tongue and was silent . 


Abb. 3: Ergebnis einer automatischen Koreferenz-Analyse mit den Stanford CoreNLP-Werkzeu- 
gen, visualisiert mit der ICARUS-Oberflache 


Der gezeigte Ausschnitt macht einige der typischen Schwierigkeiten deutlich: fiir 
jede der Hauptfiguren erzeugt das auf Nachrichten trainierte Werkzeug mehrere 
separate Koreferenzketten, die noch zusammengeführt werden müssten. Für 
Tom liegt in Satz 39-42 die Kette mit dem Index 1 vor, weitergeführt ab Satz 56. 
Dazwischen setzt das Werkzeug eine andere Kette an, die von the boy aufge- 
spannt wird (Index 52, eingeführt in Satz 43). Dass es sich bei dem Jungen um 
Tom handelt, setzt in der Tat ein tiefes Inhaltsverständnis voraus — an anderer 
Stelle wird mit the boy selbstverständlich auf andere Figuren referiert. Mit inter- 
aktiver Nachbereitung bzw. einigen Heuristiken lassen sich aber derartige Fälle 
relativ robust behandeln. 

Die Referenz auf den Zaun der Familie Thatcher wird in der automatischen 
Analyse sehr gut erfasst (Index 16: Satz 39, 42, 46), hingegen werden in Satz 44 
und 50 die Referenzen auf Nasen fälschlich zusammengelegt (Index 62). Ein zu- 
sätzliches Problem liegt in deiktischen Pronomen in der wörtlichen Rede: you 
wird in Satz 51 nicht als koreferent mit dem Vokativ Aunt erkannt, dafür entgeht 
dem System der Sprecherwechsel zwischen Satz 51 und 52 (was nicht weiter ver- 
wunderlich ist, da keine explizite Repräsentation für Figurenrede erzeugt wird — 
was jedoch bei Weiterentwicklungen denkbar wäre). 
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Für die Zwecke der hier diskutierten illustrativen Studie wurden auf Basis der 
automatischen Koreferenz-Erkennung eine Reihe von heuristischen Regeln for- 
muliert, welche die wörtliche Rede in den verhältnismäßig klaren Fällen via Ko- 
referenzkette namentlich genannten Figuren zuordnen; unklare Fälle wurden 
herausgefiltert. Da die Figurenrede in Adventures of Huckleberry Finn hinsichtlich 
der Stilistik differenzierter ist als in den Adventures of Tom Sawyer, betrachten 
wir hier den zweiten Roman im Zyklus. 

Die nach diesem Verfahren zugewiesenen Redebeiträge der sieben Figuren 
mit den größten Redeanteilen (Huck [»I«], der als Ich-Erzähler seine eigene Rede 
wiedergibt, Jim, Hucks Vater [»Pap«], Ben Rogers, Tante Pollys Schwester Sally, 
Tom, und der »König«) sowie der Erzählertext können nun separat stilometrisch 
untersucht werden. Abbildung 4 zeigt in Entsprechung zur werkübergreifenden 
Analyse in Abbildung 2 eine Topic-Analyse mit 10 Topic-Clustern (die hier nur auf 
den Figurenreden und dem Erzählertext in Huckleberry Finn induziert wurden). 
Als ein sehr charakteristisches Topic erweist sich #2 (dargestellt mit dem mittle- 
ren Blauton), das bei Jim wesentlich stärker als bei den anderen Figuren ausge- 
prägt ist und das in der Tat von Charakteristika in Twains Wiedergabe der afro- 
amerikanischen Umgangssprache dominiert wird (»de, dat, dey«).” 


24 Lisa Cohen Minnick präsentiert eine detaillierte linguistische Studie von Twains Charakteri- 
sierung der Sprache Jims, in der sie auch auf die Debatte um rassistische Stereotype eingeht, 
dies.: »Jim’s language and the issue of race in Huckleberry Finn«, in: Language and Litera- 
ture 10.2 (2001), S. 111-128. 
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Topics in figure speech/narrator text 


Topic #0 
Topic #1 
Topic #2 
Topic #3 
Topic #4 
Topic #5 
Topic #6 
Topic #7 
Topic #8 
Topic #9 


Topics 


wif 
deg 


sıaboy 
Aires 
woL 
Buy 


YOLVYYVN 


Abb. 4: Analyse der automatisch extrahierten Figurenrede in Huckleberry Finn mit latenten 
Topics 


Die direkte Rede der übrigen Figuren (Huck [»I«], Tom, Sally, Rogers usw.) setzt 
sich vom Erzählertext recht deutlich durch Topic #7 ab (dominant sind weit ver- 
breitete umgangssprachliche Elemente: »don’t ain’t ‚Il, won’t«). Generell muss 
der Vergleich aufgrund der verhältnismäßig kleinen Sprachausschnitte und 
möglicher verbleibender Fehlzuweisungen mit Vorsicht genossen werden. Das 
Beispiel sollte vor allem die methodische Perspektive aufzeigen, die sich prinzi- 
piell auf ganze Korpora skalieren ließe. 
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2 Formalisierte Textanalysemodelle und die 
Arbeitspraxis in den Literaturwissenschaften 


Die Diskussion der computerlinguistischen Modellierungsansätze und die Ana- 
lysebeispiele in Teil 1 zeigen, dass literarische Texte interessante Anknüpfungs- 
punkte fiir die Anwendung von Modellen und Methoden aus der Computerlingu- 
istik bieten. Gleichzeitig diirfte deutlich werden, dass eine unmodifizierte 
Anwendung von Standard-Ansätzen zwar gelegentlich möglich ist, aber meist 
den weitergehenden Fragestellungen nicht optimal gerecht wird - hierfür sollten 
die Analysemodelle angepasst und weiterentwickelt werden. 

Die aus computerlinguistischer Sicht naheliegende Erwartung ist also, dass 
der Austausch mit Literaturwissenschaftlerinnen und -wissenschaftlern rasch 
dazu führt, die Grenzen der existierenden, oberflächennahen Analysemodelle 
systematisch zu erfassen und Wege für eine theoretisch fundierte Weiterentwick- 
lung aufzuzeigen. Eine praktische Erwartung wäre, mit bestehenden Analyse- 
werkzeugen bei der Exploration größerer Korpora von literarischen Texten einen 
Beitrag zum Distant Reading leisten zu können, mindestens zum Vorfiltern von 
Texten oder Textstellen für eine anschließende Detailanalyse durch Close Rea- 
ding. Nach Pilotanalysen mit einigen denkbaren Analysemodellen könnte es im 
Dialog relativ zügig gelingen, Fragestellungen zum Text bzw. zum Korpus zu for- 
mulieren, für die eine Weiterentwicklung von bestehenden Modellierungsansät- 
zen gleichzeitig computerlinguistisch realistisch und literaturwissenschaftlich 
zielführend ist. Anders formuliert liegt es aus technischer Sicht nahe, die Erfah- 
rungen mit anderen Anwenderinnen von Sprachanalysekomponenten auf die 
computerunterstützte Analyse von literarischen Texten zu übertragen: so legen 
in der sogenannten Bio-NLP” biomedizinische Experten eine Begriffsontologie 
fest (beispielsweise Enzymbezeichnungen und relevante Prozesse, in denen die 
Enzyme eine Rolle spielen), annotieren in einem Korpus von Fachtexten textuelle 
Bezüge auf die Begriffe und schaffen so Referenzdatensätze für die Anpassung 
und Weiterentwicklung von computerlinguistischen Algorithmen und Modellen 
(mit der Informatik-Methode des sogenannten Benchmarkings, das Unterschiede 
im Modellverhalten dadurch systematisch erfasst, dass Vergleichsmodelle immer 
wieder auf die gleichen Testdaten angewandt werden). Nicht grundsätzlich an- 
ders funktioniert die Kooperation in der Korpuslinguistik, in der zu komplexeren 


25 Kurz für Biomedical Text Mining, also Natural Language Processing für Textsammlungen der 
biomedizinischen Fachliteratur. 
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linguistischen Phanomenen (etwa auf Ebene der Semantik und Pragmatik) paral- 
lel zur Theorieentwicklung Sprachdaten in einem Referenzkorpus nach den the- 
oretischen Kategorien annotiert werden, sodass Modelle fiir eine automatische 
Vorhersage empirisch evaluiert werden können. (Das letztere Szenario zielt häu- 
fig gar nicht auf die Entwicklung vollautomatischer Werkzeuge für reale Anwen- 
dungen ab, sondern nutzt experimentelle Vorhersagemodelle für die Überprü- 
fung von theoretischen Hypothesen.) 

Sucht man jedoch für den Analysegegenstand »literarische Texte« ganz prak- 
tisch nach einem möglichen Ausgangspunkt für entsprechende korpusbasierte 
Entwicklungsperspektiven, zeigt sich: abseits der noch kleinen Community der 
digitalen Literaturwissenschaften, auf die wir noch zurückkommen, ist eine 
Übertragung des Vorgehens nicht ohne weiteres möglich. Man müsste für eine 
nicht-triviale, jedoch auch nicht hochkomplexe Analyseaufgabe eine studien- 
übergreifend nutzbare Operationalisierung entwickeln, anhand der ein Referenz- 
korpus annotiert wird. Mit diesem Korpus stünde dann der Computerlinguistik 
(bzw. der digitalen Literaturwissenschaft) ein Datensatz zur Verfügung, der eine 
empirisch kontrollierbare Anpassung, Weiterentwicklung und Optimierung von 
Modellen ermöglicht. Die jeweiligen Vorhersagemodelle könnten in der literatur- 
wissenschaftlichen Forschung auf anderen Texten experimentell eingesetzt wer- 
den — möglicherweise bereits »produktiv« für explorative oder quantitative 
Studien, vor allen Dingen jedoch zur Hypothesenüberprüfung bei der Operatio- 
nalisierung von Analysekategorien (und damit zur Theorieentwicklung). Die 
Gründe, weshalb ein derartiges Vorgehen (derzeit noch) weniger praktikabel ist 
alsin anderen Analyseszenarien, sind vielfältig, und eine belastbare Beurteilung 
bedürfte einer umfassenden Meta-Reflexion. Als Beitrag zur Diskussion seien hier 
dennoch Annahmen und Vermutungen zu einigen wichtigen Gründen aufgelistet 
— im Bewusstsein der Einseitigkeit einer computerlinguistisch geprägten Be- 
trachtung und ohne behaupten zu wollen, die Einschränkungen seien jeweils 
systematisch und unüberwindbar. 

Einige Gründe liegen in der Unterschiedlichkeit der etablierten Arbeitsprak- 
tiken: 

a) Der Originalitätsanspruch in literaturwissenschaftlichen Beiträgen läuft einer 
wiederholten Auseinandersetzung mit demselben Text und denselben Teilfragen 
entgegen (wie der Benchmarking-Ansatz es mit sich bringt). Selbst wenn theore- 
tische Betrachtungen und die Methodenentwicklung im Vordergrund stehen, 
würde ein Beitragin den Literaturwissenschaften zur exemplarischen Illustration 
wohl eher einen (in jüngerer Zeit) wenig untersuchten Text einsetzen als die pro- 
pagierte Analysesystematik auf einen Referenztext anzuwenden, zu dem eine 
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Vielzahl von alternativen Ansätzen veröffentlicht ist (was genau dem gängigen 
computerlinguistischen Vorgehen entsprache).”° 

b) Aufgrund des verbreiteten Fokus auf einem vergleichsweise kleinen Ka- 
non der Hochliteratur erschließt sich für viele Fachwissenschaftlerinnen nicht 
der Vorteil, den operationalisierte Analysemodelle für Kernfragen der Interpreta- 
tion haben sollten: im günstigen Fall gelingt es, mit den Modellen bestimmte de- 
skriptive Textanalysen analog zu dem Zugang eines professionellen Lesers zu er- 
fassen. Wie kann dies aber zu einem Erkenntnisgewinn beitragen, den ein 
Spezialist nicht aufgrund seiner eigenen Lektüre mindestens ebenso gut erlangt 
hätte? 

c) Soweit die Zielsetzung darin besteht, das Singuläre in den Werken der 
Hochliteratur zu erfassen, das zu ihrem epochenübergreifenden Stellenwert bei- 
trägt, dürften über die deskriptive Analyse hinaus stets Aspekte der Deutung ins 
Spiel kommen, die von Fall zu Fall so spezifisch sind, dass eine generalisierende 
Behandlung unerreichbar erscheint. 

d) Erweitert man den Gegenstandsbereich auf größere Korpora von literari- 
schen Texten, möglicherweise unter Einschluss der populären Literatur, erweist 
sich eine exakt operationalisierte Charakterisierung von zentralen literaturhisto- 
rischen Beschreibungskategorien (wie bestimmten Gattungen oder Epochen) als 
schwierig, da in den Literaturwissenschaften zumeist kein streng empirischer 
Ansatz verfolgt wurde und diese Kategorien oft konzeptionell vage bleiben. 

e) Die Tatsache, dass mit jedem automatisierten Analysewerkzeug eine Rest- 
Ungenauigkeit verbunden ist, lässt viele Literaturwissenschaftler vor dem Ge- 
danken zurückschrecken, Interpretationen auf Werkzeugergebnisse aufzubauen 
- zumal ein effektiver Einsatz von Computermodellen auf Korpora sehr zeitinten- 
siv ist und Kompetenzen erfordert, die traditionell nicht in einer geisteswissen- 
schaftlichen Universitätsausbildung vertieft werden. Auf eine Analysekompo- 
nente, die nicht zweifelsfrei verlässlich, nicht in allen Details durchschaubar und 
deren Einsatz dazu noch mit großem Aufwand verbunden ist, mag manche oder 
mancher lieber verzichten. 

f) Der konzeptionelle und zeitliche Aufwand, der mit Modellierungsexperi- 
menten verbunden ist, hat in der Computerlinguistik und Informatik zu einer 
weitreichenden Spezialisierung in der Methodenentwicklung geführt. Experi- 
mente auf Korpusdaten werden wie in naturwissenschaftlichen Fachrichtungen 


26 Christof Schöch widmet sich jedoch der Idee einer systematischen Wiederholung von For- 
schung in den digitalen Literaturwissenschaften, ders.: »Wiederholende Forschung in den digi- 
talen Geisteswissenschaften«, DHd-Tagung 2017: Digitale Nachhaltigkeit, Bern. 
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mit stark teambasierten Laborpraktiken umgesetzt: in Arbeitsgruppen ist die Ex- 
pertise zu wiederkehrenden Teilaufgaben häufig aufgeteilt; Arbeiten werden in 
Ko-Autorschaft veröffentlicht. Werden unterschiedliche Methoden zusammenge- 
führt, geschieht dies oft durch eine Kooperation zwischen mehreren Arbeitsgrup- 
pen. Keiner der Beteiligten überschaut in einer solchen Situation jede Kompo- 
nente des Gesamtmodells in jedem Detail; zur Absicherung eines methodischen 
validen Vorgehens müssen an den Schnittstellen Evaluierungen vorgenommen 
werden. Diese Praxis läuft der etablierten Arbeitsorganisation in den Geisteswis- 
senschaften entgegen, nach der die Erwartung wäre, dass eine Wissenschaftlerin 
jede Methodik, die sie zur Anwendung bringt, eigenständig unter Kontrolle hat. 

Neben diesen in der Arbeitspraxis verankerten Hürden werden immer wieder 
auch tiefer liegende Gründe verantwortlich gemacht: 

f) Nicht selten werden grundsätzliche Bedenken vorgebracht, dass der Weg 
über die technisch machbaren Datenanalysen bei der Entwicklung einer These 
und ihrer Rechtfertigung die Unbefangenheit eines klassisch hermeneutischen 
Vorgehens gefährdet. Werden so nicht Fragen bevorzugt verfolgt, zu denen ein 
bestimmter methodischer Zugang naheliegende Antworten liefert?” 

g) Allgemeiner weist beispielsweise das literaturwissenschaftlich-computer- 
linguistisch gemischte Autorenteam Adam Hammond, Julian Brooke und Graeme 
Hirst von der University of Toronto in dem Workshopbeitrag »A Tale of Two Cul- 
tures: Bringing Literary Analysis and Computational Linguistics Together«”* auf 
das sehr unterschiedliche Selbstverständnis in den beteiligten Facherkulturen 
hin, wie beispielsweise C. P. Snow (1959)” die Situation recht drastisch charakte- 
risiert hat mit seiner These zu den sich gegenseitig ignorierenden intellektuellen 
Kulturen der Geistes- und Literaturwissenschaften einerseits und der Naturwis- 
senschaften und Technik andererseits. Hammond u. a. erkennen in der verbrei- 
teten Skepsis unter Literaturwissenschaftlern gegenüber Computermodellen 
(und umgekehrt in der schwach ausgebildeten Fähigkeit unter Informatikerin- 
nen, das literaturwissenschaftliche Vorgehen nachzuvollziehen) Auswirkungen 
des unterschiedlichen wissenschaftlichen Selbstverständnisses. Die Computer- 


27 Reichert verweist beispielsweise im Vorwort zum Sammelband Big Data auf die Gefahr einer 
»evidenzbasierte[n] Konzentration auf das mit den Daten Mögliche«, vgl. Ramón Reichert (Hg.): 
Big Data. Analysis on the digital transformation of knowledge, power and economy. Bielefeld 2014. 
28 Adam Hammond, Julian Brooke und Graeme Hirst: »A tale oftwo cultures: bringing literary 
analysis and computational linguistics together«, in: Proceedings of the NAACL 13 Workshop on 
Computational Linguistics for Literature. Atlanta, GA, 2013, S. 1-8. 

29 Charles Percy Snow: The Two Cultures and the Scientific Revolution. Cambridge 1959. 
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linguistik arbeitet in der naturwissenschaftlichen Tradition grundsätzlich prob- 
lemorientiert: die Forschungsagenda wird grundsätzlich so definiert, dass ein als 
problematisch erkannter Aspekt der vorhandenen Theorien, Modelle und Metho- 
den überwunden wird. In der hermeneutischen Tradition liegt das übergeordnete 
Ziel einer Studie hingegen nicht in der Lösung eines bekannten Problems - ein 
bemerkenswerter Beitrag zeichnet sich vielmehr dadurch aus, dass er Fragen als 
relevant aufdeckt, die bislang nicht im Bewusstsein der Fachwelt lagen. 

Aus der eigenen Erfahrung heraus stellen Hammond u. a. fest, dass fiir eine 
effektive Kooperation beide Seiten die »Komfortzone« ihrer disziplinären Gepflo- 
genheit verlassen müssen - eine Beobachtung, die sicherlich die meisten Koope- 
rationstandems unterschreiben werden. 

h) Den Reibungspunkt der Problemorientierung konkretisieren Hammond 
u. a. (2013) anhand der Haltung der Disziplinen zur Ambiguität von Sprache und 
Texten. In der Tat steht die Ambiguitäts- bzw. Polyvalenzfrage häufig im Kern der 
Abstimmungsproblematik: die Computerlinguistik, in Nachfolge des klassisch 
linguistischen Vorgehens, sieht ihre Aufgabe darin, die allgegenwärtigen Phäno- 
mene der Ambiguität und Vagheit auf unterschiedlichsten Sprach- und Textebe- 
nen dahingehend aufzuklären, dass die Bedingungen einer kontextabhängigen 
Disambiguierung - soweit jeweils möglich - systematisch erfasst werden, und 
sie auf dieser Basis in einem algorithmischen Verfahren zu modellieren. Bei ei- 
nem empirisch datenorientierten Vorgehen besteht ein naheliegender Schritt auf 
diesem Weg in der Erhebung des realen Disambiguierungsverhaltens von kom- 
petenten Sprecherinnen der Sprache bzw. Leserinnen von Texten. Und genau so 
kann man den zentralen Schritt der Annotation von Korpusdaten verstehen: die 
Annotation einer Textstelle durch eine kompetente Sprecherin ist gleichsam ein 
empirisches Experiment zum komplexen kognitiven Interaktionsprozess von 
Wissensquellen (und weiteren Faktoren). 

In der Literaturwissenschaft gilt die These der Polyvalenz von literarischen 
Texten als ein Grundkonsens über die unterschiedlichsten Strömungen hinweg: 
es gibt keine singuläre, »korrekte« Interpretation oder Deutung eines Texts. Ge- 
rade hochliterarische Texte zeichnen sich dadurch aus, dass sie in verschiedenen 
Rezeptionskontexten zu sehr unterschiedlichen Interpretationen einladen. Vor- 
dergründig erscheint also der datenorientierte Ansatz der Computerlinguistik 


30 Fotis Jannidis diskutiert den Status der Polyvalenzthese kritisch, die den Eindruck erwecken 
könnte, eine abwägende wissenschaftliche Auseinandersetzung mit konkurrierenden Interpre- 
tationsansätzen wäre unmöglich (was die Frage der Beliebigkeit aufwürfe). Er kommt zu dem 
Ergebnis, dass die These der Polyvalenz von Texten keinesfalls in Widerspruch zur Zielsetzung 
steht, unter den denkbaren Interpretationen diejenigen zu identifizieren, welche die »für einen 
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und Linguistik grundlegend inkompatibel: die Auszeichnung eines Texts im 
Sinne einer Referenzannotation (z. B. im Rahmen des Benchmarkings) erscheint 
als unzulässige Festlegung auf eine bestimmte Lesart. 

In der disziplinübergreifenden Arbeitspraxis, die Hammond u.a. vorschla- 
gen, versuchen sie die Spannung durch subjektive Mehrfachannotationen von li- 
terarischen Texten aufzulösen (zur Analysefrage der freien indirekten Rede, die 
sich im allgemeinen Fall nicht interpretationsunabhängig beantworten lässt). 
Computerlinguistische Modelle bzw. maschinelle Lernverfahren werden dann 
verwendet, um gerade die Indikatoren zu ermitteln, die Vieldeutigkeit erzeugen. 

Auch das Hamburg-Heidelberger literaturwissenschaftliche Annotationspro- 
jekt heureCLEA? verwendet große Sorgfalt auf den Umgang mit der Frage der 
Polyvalenz. Die Guidelines” zielen darauf ab, sich bei der Annotation von narra- 
tologischen Kategorien so weit wie möglich auf deskriptive Analysen des Textin- 
halts zu beschränken, über die intersubjektive Übereinstimmung herrscht und 
für die keine interpretatorischen Schritte notwendig sind (so dass das Annotati- 
onsergebnis prinzipiell alle Interpretationsmöglichkeiten offen lassen sollte). In 
einem zyklischen Verfahren der Mehrfachannotation wird ein Konsens zu dieser 
intersubjektiven Basisanalyse hergestellt. Dieser Herangehensweise folgend 
könnte die Computerlinguistik bzw. Informatik ihre Aufgabe darin suchen, die 
intersubjektiven, prä-interpretatorischen Schritte in formalisierte Modelle zu im- 
plementieren und so mittelfristig auf größeren Korpora eine automatische quan- 
titative Textinhaltsanalyse anzustreben, die hermeneutischen Studien als Grund- 
lage dient (womit man einigen der oben genannten methodischen Bedenken 
zuvorkäme). 

Möglicherweise ist es für eine gesunde Entwicklung des Methodeninventars 
auch förderlich, wenn zunächst »flachere« Verfahren der (deskriptiven) Textana- 
lyse vorangetrieben werden — damit also neben distributionellen Ansätzen sol- 
che strukturelle Verfahren, die keine tieferen interpretatorischen Schritte bein- 
halten. Diese lassen sich robuster über Fragestellungen und Textspezifika 


Leser durch die Lektüre eines Textes manifest gewordenen Informationen« besser als andere er- 
fasse, ders.: »Polyvalenz — Konvention - Autonomie«, in: Regeln der Bedeutung. Zur Theorie der 
Bedeutung literarischer Texte, hg. v. Fotis Jannidis, Gerhard Lauer, Matias Martinez und Simone 
Winko. Berlin, New York 2003, S. 3-30. 

31 heureclea.de; eine Kooperation zwischen einer literaturwissenschaftlichen Arbeitsgruppe 
(unter Leitung von Jan Christoph Meister) und einer Informatikgruppe (geleitet von Michael 
Gertz). 

32 Evelyn Gius und Janina Jacke: Zur Annotation narratologischer Kategorien der Zeit. Guidelines 
zur Nutzung des CATMA-Tagsets. Version 2. Hamburg 2016. 
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hinweg übertragen und können so möglicherweise in größerer Breite neue For- 
men der Textbetrachtung inspirieren. 

Dennoch soll hier betont werden, dass aus Sicht des Autors der Eindruck 
täuscht, ein »tiefer« (computer-)linguistischer Modellierungsansatz sei nicht mit 
der Polyvalenz-These vereinbar. Zwar ist es richtig, dass empirisch orientierte 
Zweige der modernen Linguistik und die Computerlinguistik wie oben ausgeführt 
bei der Korpusannotation anstreben, dass im jeweiligen Äußerungskontext die 
präferierte Lesart fixiert wird, um empirische Anhaltspunkte für die Interaktion 
von Informationsquellen zu erhalten. Entsprechend ist gern von »Gold-Standard- 
Annotationen« auf unterschiedlichen Analyseebenen die Rede, die beim Trai- 
ning von maschinellen Lernverfahren dafür sorgen, dass Disambiguierungsstra- 
tegien induziert werden können. Konzeptuell trennt die Linguistik jedoch sehr 
deutlich zwischen dem Teil der sprachlichen (und weitergehenden kognitiven) 
Kompetenz auf der einen Seite, die für eine gegebene Äußerung die Menge der 
prinzipiell möglichen Lesarten/Interpretationen erschließt, und andererseits je- 
nen Mechanismen, die innerhalb dieser Menge die kontextuell plausibelste aus- 
wählen - unter Berücksichtigung des situativen und des Diskurskontexts und 
des Weltwissens usf. Eine formale Behandlung von Alternativen bei der Rezep- 
tion von literarischen Texten ist in diesem Rahmen ohne weiteres möglich. 

Ein experimenteller Einsatz von Computermodellen zur Erfassung von inter- 
pretationsrelevanten Texteigenschaften bietet sich vor allem an, wenn nicht die 
Automatisierung der Textanalyse per se im Vordergrund steht (bei der mit zuneh- 
mender Analysetiefe der Grad der Verlässlichkeit in aller Regel abnimmt), son- 
dern die Modelle für (differenzielle) Hypothesentests zu theoretischen Zusam- 
menhängen verwendet werden. Beispielsweise könnte anhand von zwei 
Vergleichsmodellen, die auf unterschiedlichen Kanones für eine Zielkategorisie- 
rung trainiert werden (etwa eine Gattungs-Zuordnung), geklärt werden, welche 
Auswirkungen die (Nicht-) Berücksichtigung eines bestimmten Autorenwerks 
(das gemeinhin als einflussreich angesehen wird) für die simulierte Ausbildung 
der Gattungskonvention einer bestimmten Epoche hat. 

Vorläufige Schlussfolgerung: »The Importance of Being Earnest« bei 
quantitativen Untersuchungen. Für ein abschließendes Urteil zum effektivsten 
Zusammenspiel zwischen Computerlinguistik und Literaturwissenschaft ist es zu 
früh. Sinnvoll ist sicherlich ein Weg der »zwei Geschwindigkeiten« bzw. zwei 
Komplexitätsstufen bei der Computermodellierung. Werkzeuge, die ohne massi- 
ven Anpassungsaufwand und mit realistischer Einarbeitungszeit in die Methodik 
auf neue Texte angewandt werden können, tragen stark zur Erschließung von 
Pfaden für eine »digital« informierte Textbetrachtung bei. Gleichzeitig bietet es 
sich an, die Möglichkeiten einer aufwändigen und strukturell anspruchsvollen 
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Modellierung von Textanalyse so zu erweitern, dass sie sich in literaturtheoreti- 
sche Paradigmen einpassen lassen bzw. die konzeptuellen Lücken der etablier- 
ten computerlinguistischen Ansätze schließen. 

Dank einer aktiven deutschsprachigen Community der digitalen Literatur- 
wissenschaft und eines großen Kooperationsinteresses in Teilen der Computer- 
linguistik-Community sind Entwicklungen auf beiden Pfaden im Fluss. 

Ganz besonders hervorzuheben ist, dass die bekannteren Aktivitäten in die- 
sem Spannungsfeld mit einem hohen Anspruch der methodischen Reflexion um- 
gesetzt werden” — gerade auch die Ansätze, die mit leicht übertragbaren, generi- 
schen Werkzeugen operieren. Methodische Reflexion ist stets von Bedeutung - 
und im nicht unumstrittenen Experimentierfeld der digitalen bzw. quantitativen 
Literaturwissenschaft sicherlich von besonders großer: Werkzeuge und Untersu- 
chungsmethoden, die sich rein technisch von einem Textkorpus auf ein anderes 
übertragen lassen, sind noch keine Gewährleistung, dass eine Fragestellung aus 
dem ursprünglichen Kontext auch im Zielkontext sinnvoll zu beantworten ist. Da 
die Standard-Modelle in der Regel für zeitgenössische Nachrichtentexte entwi- 
ckelt wurden, sind Qualitätsverluste bei der Analyse literarischer Texte nicht un- 
gewöhnlich. 

Besonders »tückisch« ist die Tatsache, dass die meisten Werkzeuge robust 
auf Abweichungen reagieren, so dass Probleme sich mitunter gar nicht in unmit- 
telbar sichtbaren Fehlanalysen niederschlagen. Gerade bei komplexeren quanti- 
tativen Analysen können vermeintliche Bagatellprobleme zu falschen Schluss- 
folgerungen führen. Ein plastisches Beispiel zu sprachtechnologisch unter- 
stützter Webanalyse führt David Jurgens an:* Die Erkennung, in welcher Sprache 
eine Kurzmitteilung verfasst ist, gilt als sprachtechnologisch gelöstes Problem. 
Entsprechend werden beispielsweise nach Sprache automatisch gefilterte Twit- 
ter-Nachrichten für demographische Untersuchungen ausgewertet. Es zeigt sich 


33 Vgl. etwa Peer Trilcke: »Social Network Analysis (SNA) als Methode einer textempirischen 
Literaturwissenschaft«, in: Empirie in der Literaturwissenschaft, hg. v. Philip Ajouri, Katja Mell- 
mann und Christoph Rauen. Münster 2013, S. 201-247; Nils Reiter, Anette Frank und Oliver Hell- 
wig: »An NLP-based Cross-Document Approach to Narrative Structure Discovery«, in: Literary 
and Linguistic Computing 29.4 (2014), S. 583-605; Jannidis u. a.: Automatische Erkennung von Fi- 
guren in deutschsprachigen Romanen; Thomas Bögel, Michael Gertz, Evelyn Gius, Janina Jacke, 
Jan Christoph Meister, Marco Petris und Jannik Strötgen: »Collaborative Text Annotation Meets 
Machine Learning: heureCLEA, a Digital Heuristic of Narrative«, in: DHCommons journal 2015; 
Gius und Jacke: Zur Annotation narratologischer Kategorien der Zeit; Schöch: Wiederholende For- 
schung in den digitalen Geisteswissenschaften. 

34 Postdoctoral Scholar, Stanford University; Workshop-Vortrag Universität Stuttgart, Oktober 
2016. 
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allerdings, dass ein erheblicher Anteil von Kurznachrichten in afroamerikani- 
schem Englisch nicht der Kategorie Englisch zugeordnet wird (was in den Stan- 
dard-Testszenarien jedoch nicht ins Gewicht fällt). Nutzt man eine Analyse »al- 
ler« englischsprachigen Kurznachrichten beispielsweise für die Wahlforschung, 
kann es so zu systematisch falschen Vorhersagen kommen. 

Eine quantitative Datenanalyse wird im Rahmen einer literaturwissenschaft- 
lichen Studie die Erwartung einer objektiven Ergänzung der anderweitigen Argu- 
mentation wecken. Umso sorgfältiger sollte die Validierung der Methoden durch- 
geführt werden. Der Anschein pseudo-objektiver Analysen würde den gesamten 
Ansatz der Digital Humanities diskreditieren. So mag es noch wichtiger sein als 
die Entwicklung von anspruchsvollen Modellen, dass für jede Methode vor einer 
Verwendung die Adäquatheit in Bezug auf die Zieldaten überprüft wird und die 
zu erwartende Qualität der Ergebnisse abgeschätzt wird. Hierfür genügt es zu- 
meist nicht, die Werkzeugausgabe auf einigen Eingabedaten in Augenschein zu 
nehmen (da Fehler so leicht übersehen werden), sondern es sollte zumindest eine 
kleine Sammlung von unabhängig annotierten Testdaten als Referenzkorpus ein- 
gesetzt werden, dessen relevante Eigenschaften repräsentativ für die tatsächli- 
chen Zieldaten sind.” In aller Regel lohnt es sich sehr, einige Stunden in die werk- 
zeugunabhängige Annotation von Testdaten zu investieren und das Werkzeug 
gegen diese zu evaluieren und eventuelle Parameter zu kalibrieren. Selbst wenn 
eine automatische Analyse nur explorativ eingesetzt wird, etwa im Rahmen eines 
Distant Reading, kann eine Fehleinschätzung zur Verlässlichkeit zu sehr irrefüh- 
renden Schlussfolgerungen führen, die gerade aufgrund der Distanz zum Text 
auch nicht in der weiteren Betrachtung zutage treten. 

Für größer angelegte Analyseaufgaben stehen zumeist alternative Modellie- 
rungsverfahren bzw. Werkzeugkombinationen zur Auswahl. Der Abgleich der er- 
zielbaren Ergebnisse mit einer Testmenge von Referenzdaten kann entscheidend 
zu einem effektiven Werkzeugeinsatz beitragen. In der Kooperation zwischen 
Fachwissenschaftlern und Informatikerinnen machen Referenzdaten eine ge- 
zielte Modelloptimierung möglich. 

In der Regel entwickeln sich in hermeneutisch geprägten Projekten die ana- 
lytischen Fragestellungen erst im Zuge der Auseinandersetzung mit dem Unter- 
suchungsgegenstand, was eine verzahnte Verfeinerung der technischen 
Analyse-(teil-)ziele erforderlich macht. Auch hierbei scheint die entwicklungsbe- 
gleitende Annotation von möglichst repräsentativen Referenzkorpusdaten mit 


35 Um argumentative Schlussfolgerungen aus den Beispielanalysen in Teil 1 dieses Beitrags zu 
ziehen, wäre beispielsweise zwingend eine Validierung der automatischen Extraktionsergeb- 
nisse erforderlich. 


42 — Jonas Kuhn 


den (jeweils vorläufigen) Zielkategorien der beste Garant für ein effektives und 
dennoch methodenkritisches Vorgehen.* 

Indem auch beim hermeneutisch geprägten Vorgehen der Blick auf die 
Texteigenschaften gelenkt wird, die besonders starken Einfluss auf bestimmte 
Kategorien in der deskriptiven Analyse haben, dürften einige der oben aufgefiihr- 
ten Unterschiede in der Arbeitspraxis schwinden und so erscheint es perspekti- 
visch denkbar, dass durch die empirische Verankerung in geeigneten Referenz- 
daten computerlinguistische Modellierungsansätze gezielt so weiterentwickelt 
werden, dass auch zu komplexen literaturtheoretischen oder -historischen Hypo- 
thesen differenzielle datengestützte Experimente durchgeführt werden können, 
die sich idealiter ergänzend in eine hermeneutische Argumentation einfügen las- 
sen. 
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Shakespeares natürliche Figuren im deutschen Drama 
des 18. Jahrhunderts 


[W]eil die Poeten in England [...] ihre Stücke nicht nach 
Rezepten machen wie das Frauenzimmer seine Puddings. 
J. E. Schlegel? 


Abstract: The influence of Shakespeare on the playwrights of Sturm und Drang is 
one of the most investigated areas of German drama history and its influences. 
However, the application of methods from computational and corpus linguistics 
for text content and the quantitative analysis of text structure shed a new light on 
this influence. In particular, we focus on formal similarities between the plays of 
Shakespeare and a selection of German authors between 1730 and 1804, who 
have explicitly expressed their relationship to Shakespeare in poetological writ- 
ings. We try to compare the poetologically postulated relevance of Shakespeare 
to the playwrights of Sturm und Drang (and their predecessors) with the practical 
relevance of Shakespeare for the formal and linguistic design of their plays. Fi- 
nally, the results are discussed from two perspectives, focussing on content and 
methods: 1. Can this analysis show Shakespeare’s influence on the design of Ger- 
man dramatic texts? 2. How can poetological programs be operationalized so that 
their realization in dramatic plays can be evaluated by digital drama analysis? 
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thods-Projekts QuaDramA: Quantitative Drama Analytics (https://quadrama.github.io/). 

2 Johann Elias Schlegel: »Gedanken zur Aufnahme des dänischen Theaters«, in: ders.: Canut. 
Ein Trauerspiel. Im Anhang: Gedanken zur Aufnahme des dänischen Theaters, hg. v. Horst Stein- 
metz. Stuttgart [1764] 1989, S. 79. 
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1 Fragestellung und Analysegegenstand 


Der Einfluss Shakespeares auf die Autoren des Sturm und Drang galt schon Mitte 
des 20. Jahrhunderts als einer der meistuntersuchten Bereiche deutscher Dra- 
mengeschichte und ihrer Einflüsse.’ Die Anwendung computerlinguistischer und 
strukturanalytischer Verfahren erlaubt es dennoch, einzelne Aspekte dieser Ein- 
flussgeschichte neu zu beleuchten. Dabei werden wir uns insbesondere - aber 
nicht ausschließlich — auf formale Ähnlichkeiten zwischen den Stücken Shake- 
speares und einer Auswahl deutscher Autoren zwischen 1730 und 1804 konzent- 
rieren, die sich in poetologischen Schriften“ explizit über ihr Verhältnis zu Shake- 
speare geäußert haben. Diese Auswahl resultiert aus einem spezifischen Inter- 
esse. Sie soll es uns ermöglichen, die in diesen Schriften postulierte Relevanz 
Shakespeares für die Autoren des Sturm und Drang und deren Vorläufer mit der 
praktischen Relevanz Shakespeares für die formale und sprachliche Gestaltung 
ihrer Stücke zu beurteilen.’ Auf der Grundlage dieser Kriterien entstand ein Kor- 
pus von 107 deutschsprachigen Stücken, das in fünf Teilkorpora zerlegt wurde, 
wobei jedes eine (einigermaßen) homogene Poetologie repräsentiert. 
1. Shakespeare (38 Stücke, in der Übersetzung von Schlegel/Tieck), 
2. Frühaufklärung (22 Stücke zwischen 1730 und 1749), 
3. Populäre Stücke (12 Stücke, von Schröder, Kotzebue und Iffland zwischen 
1784 und 1802), 
4. Sturm und Drang (22 Stücke von Goethe, Gerstenberg, Klinger, Leisewitz, 
Lenz, Schiller und Wagner zwischen 1768 und 1787) 
5. Weimarer Klassik (12 Stücke von Goethe und Schiller zwischen 1776 und 
1804). 


3 Lawrence M. Price: Die Aufnahme englischer Literatur in Deutschland. 1500-1960. Bern, Mün- 
chen 1961, S. 223. 

4 Wir verwenden »poetologische Schriften« und »Dramenpoetik« synonym. Vgl. hierzu Sandra 
Richter: Poetiken. Poetologische Lyrik, Poetik und Ästhetik von Novalis bis Rilke. Berlin, New York 
2004, insb. die Einleitung und darin S. 6-22. 

5 Wir sprechen hier und im Folgenden über die Konzeption dramatischer Texte, nicht jedoch 
über den theaterwissenschaftlichen Bereich historischer Aufführungspraktiken o. ä. Zu der emi- 
nent wichtigen Rolle Friedrich Ludwig Schröders und seinen Hamburger Shakespeare-Inszenie- 
rungen der späten 1770er Jahre in Hamburg siehe Dieter Hoffmeier: »Die Einbürgerung Shake- 
speares auf dem Theater des Sturm und Drang«, in: Schriften zur Theaterwissenschaft. Bd. 3, 
hg. v. Rolf Rohmer. Berlin 1964, S. 9-265 und Renata Häublein: Die Entdeckung Shakespeares auf 
der deutschen Bühne des 18. Jahrhunderts. Adaption und Wirkung der Vermittlung auf dem Thea- 
ter. Tübingen 2005 (Theatron 46). 
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Der Konzeption der Teilkorpora liegt die These zugrunde, dass mit einem zuneh- 
menden Einfluss Shakespeares in Deutschland die Stiicke dieser Autoren zuneh- 
mend weniger im regelpoetischen Sinne strukturiert sind, wobei die Hochzeit die- 
ses Einflusses fiir den Sturm und Drang angenommen wird. Daher haben wir ein 
Teilkorpus vor dieser Strömung (Frühaufklärung) und ein Teilkorpus danach 
(Weimarer Klassik) angesetzt. Das Teilkorpus der populären Stücke fungiert in 
mehrerer Hinsicht als ein Korrektiv. Es beinhaltet Stücke aus dem Zeitraum des 
Sturm und Drang und der Weimarer Klassik, die weniger kanonisch sind und zu 
einer anderen dramatischen Gattung gehören. Während die meisten Teilkorpora 
Tragödien/Trauerspiele beinhalten, besteht das der populären Stücke zu einem 
Gutteil aus Komödien (sechs von zwölf sind Lustspiele, die anderen sechs Schau- 
spiele, Familien- resp. Sittengemälde). Eine vollständige Übersicht liefert Ta- 
belle 1im Appendix zu diesem Beitrag. Einer Rekonstruktion der poetologischen 
Ausrichtung an Shakespeare seit Gottsched wird im zweiten Schritt ein Vergleich 
folgen, der eine Anzahl computergestützter Analysen auf allen Teilkorpora bein- 
halten wird. Abschließend werden die Ergebnisse aus zwei Perspektiven disku- 
tiert, einer inhaltlichen und einer methodischen: Lässt sich aus unseren Analy- 
sen ein Einfluss Shakespeares auf die Gestaltung deutscher dramatischer Texte 
in der zweiten Hälfte des 18. Jahrhunderts, insbesondere in den 1770er Jahren ab- 
leiten? Wie lassen sich poetologische Programme so operationalisieren, dass de- 
ren Umsetzung in Dramen überhaupt von einer digitale Dramenanalyse beurteilt 
werden kann?‘ 


2 Poetologische Programmatiken 


Die folgende Darstellung wird sich an der hinlänglich bekannten Einschätzung 
orientieren, dass Shakespeare in der ersten Hälfte des 18. Jahrhunderts aufgrund 
regelpoetischer Setzungen noch dezidiert abgelehnt wurde, diese Ablehnung 
sich jedoch keine 40 Jahre später in ihr Gegenteil verkehrte.” Weniger bekannt 


6 Vgl. Stefan Sinclair: »Computer-Assisted Reading. Reconceiving Text Analysis«, in: Literary 
and Linguistic Computing 18.2 (2003), S. 175-184, der sich dezidiert für eine an bestehenden lite- 
raturwissenschaftlichen Forschungsfragen und Konzepten ausgerichtete tool-Entwicklung in- 
nerhalb der DH ausspricht. 

7 Bekanntester Vertreter dieser These ist sicherlich Friedrich Gundolf: Shakespeare und der 
deutsche Geist. Berlin 1911, insb. mit dem zweiten Teil (Shakespeare als Form) und dem dritten 
Teil (Shakespeare als Gehalt). Steimer postuliert, dass das »von Shakespeare entwickelte Dra- 
menverständnis in Theorie und Praxis eine neue Epoche einleitet« (Carolin Steimer: »Der 
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ist, dass sich bereits vor Lessing affirmative Shakespeare-Beziige nachweisen las- 
sen und diese schon auf eben diejenigen Aspekte der Shakespeareschen Drama- 
tik abzielen, die später in den Blick der Stürmer und Dränger geraten, dort jedoch 
mit deutlich mehr Emphase und Gefiihl expliziert werden. Mit Blick auf die spa- 
teren Analysen werden vor allem diejenigen Zuschreibungen an Shakespeare Er- 
wahnung finden, die in den Dramen ebendieser Autoren computergestiitzt mess- 
bar sind. Der nachstehende dramenpoetologische Abriss beschrankt sich auf 
Gottsched, J. E. Schlegel, Lessing, Gerstenberg und Goethe. 

Gottscheds Versuch einer Critischen Dichtkunst vor die Deutschen (1730) steht 
— wie auch die Antike-Rezeption der fiir Gottsched maßgeblichen Franzosen — 
ganz im Zeichen der höfischen Dichtungstradition und ist zumindest teilweise 
noch dem mittelalterlichen Ordo-Gedanken verpflichtet. Folglich fokussiert seine 
Dramenpoetik regulative Prinzipien und lässt sich als Versuch verstehen, struk- 
turelle Charakteristiken als Grundlage der Definition guter dramatischer Praxis 
zu setzen. Dass dieser Anspruch nicht immer in inhaltlich-handlungsbezogenen 
Begründungszusammenhängen steht, wird etwa anhand der Fünfaktregel deut- 
lich. Diese wird aus dem Horaz wirkungsästhetisch formatiert und mit der Ver- 
meidung von Langeweile abgeleitet: »Die Ursache dieser fünffachen Eintheilung 
ist wohl freylich willkührlich gewesen: Indessen ist diese Zahl sehr bequem, da- 
mit dem Zuschauer nicht die Zeit gar zu lang würde. Denn wenn jede Handlung 
eine halbe Stunde daurete, so [...] konnte das Spiel nicht viel länger als drey Stun- 
den dauren«.® Dass die der Handlung äußeren Gründe der Fünfaktregel diese als 
für Gottsched irrelevante Kategorie auszeichnen, bestätigt eine weitere Beobach- 
tung: Er kommt auf diese Regel gar nicht mehr zu sprechen. Dies ist in vielerlei 
Hinsicht bemerkenswert, gerade weil die Tradition dieser dramatischen Praxis 
bis zu Menanders griechischen Komödien und Senecas lateinischen Tragödien 
zurückführt. Angesichts der praktischen Popularität der Fünfaktstruktur über 


Mensch! die Welt! Alles«. Die Bedeutung Shakespeares für die Dramaturgie und das Drama des 
Sturm und Drang. Frankfurt a. M. u. a. 2012, S. 14). Vogel für beschreibt diese dramenhistorische 
Entwicklung anhand einer veränderten Einschätzung der Rolle der sog. liaison des scenes durch 
den höfischen französischen Klassizismus im 17. Jahrhundert und das deutsche bürgerliche 
Drama im 18. Jahrhundert (Juliane Vogel: »Aus dem Takt. Auftrittsstrukturen in Schillers »Don 
Carlos««, in: Deutsche Vierteljahrsschrift für Literaturwissenschaft und Geistesgeschichte, 86,4 
[2012], S. 532-546). 

8 Johann Christoph Gottsched: Versuch einer Critischen Dichtkunst vor die Deutschen. Leipzig 
1730, S. 570; ähnlich bereits S. 26: »Die Neuern haben zwar zuweilen nur drey gemacht, aber 
alsdann bekommt jede Handlung gar zu viel Scenen oder Auftritte, so, daß dem Zuschauer Zeit 
und Weile darüber lang wird. Es ist also besser man bleibe bey dieser Regel Horatii, und folge 
lieber dem Exempel der alten Griechen nach, als den heutigen Italienern«. 


Indirekte Operationalisierung in der digitalen Dramenanalyse — 49 


sämtliche dramatischen Gattungen, Strömungen und Epochen hinweg (vgl. die 
Tabelle im Anhang) bleibt zu fragen, warum nicht nur die der Regelpoetik ver- 
pflichteten Autoren, sondern auch viele ihrer Widersacher an diesem Modell fest- 
halten. Da dies auch für Shakespeare selbst gilt, muss sich die ihm von Gottsched 
unterstellte »Unordnung« und »Hindansetzung der Regeln« auf etwas anderes 
beziehen:? Die Einheiten der Zeit und des Ortes sowie Vermengung hoher und 
niedriger Charaktere und ihrer Sprache."° 

Dieser Bezug auf die spezifischen Eigenschaften der Figurenkonzeption 
Shakespeares zieht sich die folgenden fünfzig Jahre wie ein roter Faden durch 
poetologische Schriften. Aufgenommen wird er früh von dem nicht ganz linien- 
treuen Gottsched-Schüler Johann Elias Schlegel, der mit seiner Vergleichung 
Shakespears und Andreas Gryphs von 1741 nicht nur »Shakespeare als Name in 
Deutschland gegenwärtig« machte," sondern bereits als richtungsweisend für 
die deutlich spätere Sturm und Drang-Programmatik bezeichnet werden kann.” 
Für ihn sind Shakespeares Stücke im anti-aristotelischen Sinne »mehr Nachah- 
mungen der Personen, als Nachahmungen einer gewissen Handlung«.” Er kann 
diese der Natur nach »selber gemacht[en]« Menschen im Gegensatz zu Gottsched 
jedoch als »Vergnügen« (S. 556), als »Stärke des Engelländers« (S. 552) konzedie- 
ren, nicht aber ohne die Verletzung des Dekorum zu kritisieren: »[E]s mag so gut 
nachgeahmet seyn, als es will. [...] Die Natur dient also nicht zur Entschuldigung, 
wenn man großen Herren schlechte Redensarten und Schimpfwörter in den 
Mund leget« (S. 569). Insgesamt kommt Schlegel nicht umhin, Shakespeare doch 
aus der Sicht regelpoetischer Axiome heraus zu beurteilen und kritisiert das Trau- 
erspiel, 


9 Johann Christoph Gottsched: »Anmerkungen über das 592. Stück des Zuschauers«, in: Shake- 
speare-Rezeption. Die Diskussion um Shakespeare in Deutschland. 2. Bde., hg.v. Hansjürgen 
Blinn. Berlin [1742] 1982, hier Bd. 1: Ausgewählte Texte von 1741 bis 1788, S. 62-63, hier S. 62. 

10 Ebd. 

11 Hans Wolffheim: Die Entdeckung Shakespeares. Deutsche Zeugnisse des 18. Jahrhunderts. 
Hamburg 1959, S. 16. Der Cäsar-Übersetzung Borcks wird die gleiche Funktion zugeschrieben. 
12 Die Ulfo-Figur seines Canut wird immer wieder als Vorläufer der Kraftkerle gelesen. Dies geht 
u.a. zurück auf Johann von Antoniewicz: »Johann Elias Schlegel«, in: Allgemeine Deutsche Bio- 
graphie. 56 Bde., hier Bd. 31. Leipzig 1890, S. 378-384, hier S. 382: »Sicher erscheint mir eine tie- 
fere Kenntniß Shakespeare’s aus Schlegel’s hervorragendstem Drama »Canut« zu sprechen«. 

13 Johann Elias Schlegel: »Vergleichung Shakespears und Andreas Gryphs bey Gelegenheit des 
Versuchs einer gebundenen Uebersetzung von dem Tode des Julius Cäsar aus dem Englischen 
Werken des Shakespear. Berlin 1741«, in: Beyträge Zur Critischen Historie Der Deutschen Sprache, 
Poesie und Beredsamkeit, hg. v. einigen Liebhabern der deutschen Litteratur, Siebenter Band. 
Acht und zwanzigstes Stück. 1741, S. 540-572, S. 550. 
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wo die Eröffnung mit einem Haufen Pöbel und mit einigen gemeinen und niedrigen Scherz- 
reden geschieht, wo die Zeit der Handlung nicht nach Stunden, auch nicht nach Tagen, 
sondern nach Monathen und Jahren gemessen werden muß, und wo der Anfang zu Rom, 
und das Ende zu Philippis ist (S. 551). 


Dass viele literaturwissenschaftliche Darstellungen der Sturm und Drang-Poetik 
mit Lessing beginnen,“ ist angesichts der differenzierten und nicht vollständig 
ablehnenden Rekonstruktion der Shakespeareschen Figuren durch J. E. Schlegel 
kaum haltbar.” Zwar lobt Lessing mit deutlich mehr Verve - nicht zuletzt, indem 
er anhand des Doctor Faust nachzuweisen versucht, dass auch schon »unsre al- 
ten Stücke wirklich sehr viel Englisches gehabt haben«, das »nur ein Shake- 
spearesches Genie zu denken vermögend gewesen«.'° Die »Magerkeit«” seiner in- 
haltlichen Aussagen zu Shakespeare lässt sich jedoch in der Hauptsache aus sei- 
ner einseitigen Funktionalisierung ableiten. Lessing übernimmt Shakespeare 
nicht für seine eigene Poetik und seine dramatische Produktion, wie bereits 
Friedrich Gundolf festgestellt hatte: »Als Dichter hatte Lessing Shakespeare nicht 
nötig und machte keinen Gebrauch von ihm [...] weil er das vernünftige Prinzip 
höher stellte als das Leben woran es sich offenbarte«.'* Er bleibt dem alten Regel- 
katalog insbesondere der Einheitenlehre treu” und hantiert mit Shakespeare le- 
diglich wie mit einem »Stock, mit dem er auf die Franzosen einschlägt«.?° So we- 
nig fortschrittlich dies erscheint, es ist eine sehr grundlegende und zunehmend 
populäre Neuformatierung des zeitgenössischen gelehrten Diskurses: Shake- 
speare wird nicht mehr aus Sicht der Regelpoetik kritisiert, sondern gegen diese 
verwendet. 


14 So u.a. Benedikt Jeßing: Dramenanalyse. Eine Einführung. Berlin 2015 (Grundlagen der Ger- 
manistik 56). 

15 Weitere Vorläufertexte des Sturm und Drang mit positivem Shakespeare-Bezug nennt Blinn 
1982, S. 9-20, insb. S. 16, wo er u. a. auf Nicolai zu sprechen kommt. 

16 Gotthold Ephraim Lessing: »Briefe, die neuste Litteratur betreffend. 17. Brief«, in: ders.: 
Sämmtliche Schriften, 6. Bd. Neue rechtmäßige Ausgabe, hg. v. Karl Lachmann. Berlin [1759] 
1839, S. 41-43, hier S. 43. 

17 Monika Fick: Lessing-Handbuch. Leben — Werk - Wirkung. Stuttgart "2004, S. 316. 

18 Gundolf: Shakespeare und der deutsche Geist, S. 128f. 

19 Fick: Lessing-Handbuch, S. 179. 

20 Hugh Barr Nisbet: Lessing. Eine Biographie. Unter Mitarbeit von Karl Siegfried Guthke. Miin- 
chen 2008, S. 516. Ein Gottsched-bezogenes Beispiel möchten wir anführen: »Denn eben dieses, 
daß [Gottsched] den Addisonschen Cato für das beste Englische Trauerspiel hält, zeiget deutlich, 
daß er hier nur mit den Augen der Franzosen gesehen, und damals keinen Shakespeare, keinen 
Jonson, keinen Beaumont und Fletcher etc. gekannt hat, die er hernach aus Stolz auch nicht hat 
wollen kennen lernen« (Lessing 1839 [1759], S. 42). 
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Die heutige Wertschätzung Lessings darf nicht darüber hinwegtäuschen, 
dass es zu Beginn der zweiten Hälfte des 18. Jahrhunderts einige andere stimm- 
gewaltige Fürsprecher Shakespeares gab, die dessen zeitgenössische Wahrneh- 
mung ähnlich stark beeinflussten. Solch eine »historische Mittelstellung«” 
nimmt Heinrich Wilhelm von Gerstenberg mit seinen Briefe[n] über Merkwiirdig- 
keiten der Litteratur von 1766 ein.” Die Briefe 14 bis 18 gestaltet er als Versuch über 
Shakespears Werke und Genie und sie stehen nicht mehr im Dienste der Regelkri- 
tik, sondern der Lobpreisung eines naturnahen »charaktergestalterische[n] Ge- 
schick[s]«:? »Der Mensch! die Welt Alles! [...] Weg mit der Claßification des 
Drama! Nennen Sie diese plays mit Wielanden, oder mit der Gottschedischen 
Schule [...], wie Sie wollen: ich nenne sie lebendige Bilder der sittlichen Natur«.” 
Hörbar ist hier schon eine Veränderung des Tons, der direkten Einfluss auf Her- 
der und über diesen vermittelt indirekten Einfluss auf Goethe und somit den Kern 
der Sturm und Drang-Poetologie hatte: »Und ich rufe Natur! Natur! Nichts so Na- 
tur als Shakespeares Menschen«.” Goethes Rede zum Schäkespears Tag steigert 
diesen Ton noch einmal bis hin zu Demut und Scham,* fügt der Sache außer Pa- 
thos jedoch nichts hinzu. Zentraler Teil der Rhetorik dieser im Oktober 1771 in 
seinem Frankfurter Elternhaus gehaltenen Rede ist das Versprechen seiner poe- 
tologischen Unterwerfung. Ob Goethe dieses Versprechen einhält und damit 
ganz praktische Konsequenzen für die Gestaltung seiner Stücke zieht, sollen die 
anschließenden Analysen zeigen. Goethe konstatiert: 


Ich zweifelte keinen Augenblick dem regelmäsigen Theater zu entsagen. Es schien mir die 
Einheit des Orts so kerkermäsig ängstlich, die Einheiten der Handlung und der Zeit lästige 


21 Karl Siegfried Guthke: »Themen der deutschen Shakespeare-Deutung von der Aufklärung bis 
zur Romantik«, in: Wege zur Literatur. Studien zur deutschen Dichtungs- und Geistesgeschichte, 
hg. v. ders. Bern 1967, S. 109-132, hier S. 110. 

22 Heinrich Wilhelm von Gerstenberg: Briefe über Merkwürdigkeiten der Litteratur. Bd. 2. Schles- 
wig u. a. 1766, S. 215-307. 

23 Guthke: »Themen der deutschen Shakespeare-Deutung«, S.118. Siehe hierzu auch Norbert 
Christian Wolf: Streitbare Ästhetik. Goethes kunst- und literaturtheoretische Schriften 1771-1789. 
Tübingen 2011 (Studien und Texte zur Sozialgeschichte der Literatur 81), S. 33 und noch vor Gut- 
hke: Sengle, Friedrich (1957): Der Umfang als ein Problem der Dichtungswissenschaft, in: 
Richard Alewyn, Hans-Egon Hass und Clemens Heselhaus (Hg.): Gestaltprobleme der Dichtung. 
Bonn: Bouvier, S. 299-306, insb. S. 301-303. 

24 Gerstenberg: Briefe über Merkwürdigkeiten der Litteratur, S. 220f. 

25 Johann Wolfgang von Goethe: »Rede zum Schäkespears Tag« in: Goethes Werke, Hg. im Auf- 
trag der Großherzogin Sophie von Sachsen. 143 Bde. Weimar, Böhlau 1896. (Weimarer Ausgabe), 
I. Abt, 37. Bd., S. 29-135, hier S. 133. 

26 Ebd., S. 134: »Ich schäme mich offt vor Schäkespearen«. 
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Fesseln unserer Einbildungskrafft. [...] Und ietzo da ich sahe, wieviel Unrecht mir die Herrn 
der Regeln in ihrem Loch angethan haben, [...|so wäre mir mein Herz geborsten, wenn ich 
ihnen nicht Fehde angekündigt hätte, und nicht täglich suchte ich ihre Türne zusammen 
zu schlagen (S. 131). 


3 Computerlinguistische Vorverarbeitung 


Vor den eigentlichen Analysen wurden die Texte vorverarbeitet, um sie mit einer 
Reihe linguistischer und nicht-linguistischer Annotationen anzureichern. Diese 
Vorverarbeitung wurde im Wesentlichen automatisch mit dem Software-Paket 
DramaNLP* durchgeführt. Eine detaillierte Anleitung zur Reproduktion haben 
wir online” bereitgestellt. 

Zur Verarbeitung dramatischer Texte ist es essentiell, die verschiedenen Ele- 
mente des Textes (Figurenrede, Bühnenanweisungen, Überschriften, Fußnoten, 
etc.) adäquat zu repräsentieren und bei der Verarbeitung zu behandeln. Unser 
Ausgangspunkt ist für alle Dramen das TEI-XML markup aus dem TextGrid repo- 
sitory. 

Identifikation der Sprecher. Zwar sind die einzelnen Äußerungen jeweils 
maschinenlesbar einem Sprecher zugeordnet, deren Zuordnung zu den Einträ- 
gen in der Figurentafel ist es jedoch nicht. Viele Figuren werden mit Namen (und 
ggf. Beschreibung) in der Figurentafel eingeführt, aber im Text anders genannt. 
Ein prominentes Beispiel dafür ist Julia in Wielands Übersetzung von Shakespea- 
res Romeo and Juliet (deutscher Titel: Romeo und Juliette). Sie wird in der Figu- 
rentafel als »Julietta, Capulets Tochter« eingeführt, ihre Äußerungen sind im Text 
jedoch mit »Juliette« angekündigt. Daneben existieren in vielen Dramen eine 
Menge an Nebenfiguren (»1. Wache«), die entweder gar nicht in der Figurentafel 


27 Während im Anschluss Herder »nicht bloß an die sogenannten Theaterregeln denken« 
möchte (S. 82) und gemäß der genetischen Methode die historisch-kulturelle Angemessenheit 
der Figurendarstellung auf dem Theater fordert, stellt sich Lenz deutlicher in die Spur der Goe- 
the’schen Einheitenkritik: »Was heissen die drey Einheiten? hundert Einheiten will ich euch an- 
geben, die alle immer doch die eine bleiben. Einheit der Nation, Einheit der Sprache, Finheit der 
Religion, Einheit der Sitten — ja was wirds denn nun? Immer dasselbe, immer und ewig dasselbe. 
Der Dichter und das Publikum müssen die eine Einheit fühlen aber nicht klassifiziren.« Johann 
Gottfried von Herder: Von Deutscher Art und Kunst. Hamburg 1773, S. 82; Jakob Michael Reinhold 
Lenz: Anmerkungen übers Theater nebst angehängten übersetzten Stück Shakespears. Leipzig 
1774, S. 29. 

28 Nils Reiter: »DramaNLP 0.4.2«, https://doi.org/10.5281/zenodo.214846 (7. Juli 2017). 

29 https://quadrama.github.io/blog/2017/01/19/surveying-shakespeare (7. Juli 2017). 
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erwähnt werden oder nur als Gruppe (»Wachen«). Damit wird die korrekte, auto- 
matische Verknüpfung von Einträgen in der Figurentafel und Sprecherankündi- 
gungen nicht-trivial. In Einzelfällen kann diese Zuordnung sicher mit Heuristi- 
ken abgefangen werden (z. B. einen veränderten Buchstaben zu erlauben). Wir 
haben uns jedoch für die hier präsentierten Analysen für eine manuelle Zuord- 
nung der Figuren mittels simpler Regeln entschieden, um nicht Gefahr zu laufen, 
mit zu simplen Heuristiken Redeanteile falsch zuzuordnen (was bei mehr als ei- 
ner Handvoll Texten nur sehr schwer aufzudecken ist). 

Tokenisierung und Erkennung von Satzgrenzen. Zur Tokenisierung und 
Erkennung von Satzgrenzen wurde der in der Standardbibliothek von Java ver- 
fügbare Breaklterator verwendet. 

Erkennung von Wortarten und Lemmatisierung. Ein Wortartenerkenner 
(PoS-Tagger) erkennt Wortarten in Texten, d. h. er weist Wörtern Kategorien wie 
Nomen, Verb oder Adjektiv zu, abhängig vom Kontext, in dem das fragliche Wort 
vorkommt. Moderne PoS-Tagger basieren auf statistischen Modellen und werden 
auf großen Korpora trainiert, typischerweise bestehend aus Zeitungstexten (die 
in der Computerlinguistik oft als Standarddomäne angesehen werden). Auf Zei- 
tungstexten erreichen PoS-Tagger mittlerweile eine sehr hohe Qualität (deutlich 
über 95% accuracy). Für die hier vorgestellten Analysen haben wir den Stanford 
PoS-Tagger” eingesetzt, dessen deutsches Model auf dem Negra-Korpus’? trai- 
niert wurde. Mit zusätzlichen features zur distributed similarity, die auf dem Huge 
German Corpus” trainiert wurden, erreicht der Tagger auf ungesehenen (Zei- 
tungs-)Testdaten eine accuracy von 96,9%. Zur Lemmatisierung wurde von uns 
der Mate-Lemmatisierer® verwendet, der auf ebenfalls ungesehenen Testdaten 
aus Zeitungstexten eine accuracy von 98,28% erreicht hat. Es ist damit zu rech- 
nen, dass die Performanz von beiden Werkzeugen auf Dramen geringer ist als auf 


30 Kristina Toutanova, Dan Klein, Christopher Manning und Yoram Singer: »Feature-Rich Part- 
of-Speech Tagging with a Cyclic Dependency Network«. Paper presented at the Human Lan- 
guage Technology Conference of the North American Chapter of the Association for Computa- 
tional Linguistics, Edmonton, Canada, May-June 2003. 

31 Wojciech Skut, Brigitte Krenn, Thorsten Brants und Hans Uszkoreit: »An annotation scheme 
for free word order languages«, Paper presented at the Fifth Conference on Applied Natural Lan- 
guage Processing, Washington, DC, 1997. 

32 Institut für Maschinelle Sprachverarbeitung. »Huge German Corpus«, http://hdl.handle.net/118 
58/00-247C-0000-0022-6265-2 (07. Juli 2017). 

33 Anders Björkelund, Bernd Bohnet, Hafdell Love und Pierre Nugues: »A high-performance 
syntactic and semantic dependency parser«, Paper presented at the 23rd International Confer- 
ence on Computational Linguistics, Beijing, China, August 2010. 
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Zeitungstexten, allerdings ist das ohne Testdaten nicht zu quantifizieren. Stich- 
probenhafte manuelle Inspektion zeigte zwar keine perfekte, aber eine akzep- 
table Qualitat. 


4 Analysen 


In diesem Abschnitt werden wir verschiedene Analysen vorstellen, die durch 
Aussagen tiber Shakespeares Einfluss auf das deutsche Drama motiviert sind. Ge- 
nerell vergleichen wir die Teilkorpora hinsichtlich quantitativer Eigenschaften 
der dramatischen Texte. Eine Herausforderung dabei ist die Wahl einer angemes- 
senen Operationalisierung, da die poetologischen Aussagen in vielen Fallen 
stark kontextabhangig und letztlich interpretationsbediirftig sind. Es ist daher im 
Folgenden zu beachten, dass jede der hier vorgestellten Operationalisierungen 
lediglich Teilaspekte der poetologischen Aussage abdeckt.” 


4.1 Akte und Szenen 


Die makrostrukturellen Einheiten »Akt« und »Szene« werden etwa von Gottsched 
im Kontext einer angemessenen Dramenlänge diskutiert. Abbildung 1 zeigt die 
Akt- und Szenenzahl pro Drama an, gemittelt für jedes Teilkorpus. Die wenigen 
Texte ohne explizite Akteinteilung — wie etwa Stücke in einem Aufzuge — werden 
von uns als Einakter behandelt. Hierzu gehört etwa Lessings Damon. 


34 Eine Gefahr dieser Form der Operationalisierung führt van Peer an: »[Q]uantitative studies 
of literature significantly reduce not only the cultural value of texts, but also the generalizability 
of its own findings. What is needed, therefore, is an awareness and readiness to relate to matters 
of textuality as an organizing principle underlying the cultural functioning of literary works of 
art« (Willie van Peer: »Quantitative Studies of Literature. A Critique and an Outlook«, in: Com- 
puters and the Humanities 23.4 (1989), S. 301-307, hier S. 301). 
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EI Shakespeare 
N Frühaufklärung 
Populäre Stücke 
S Sturm und Drang 
Weimarer Klassik 


Act Scene 


Abb. 1: Durchschnittliche Zahl an Akten und Szenen. Die Werte sind in jeder Kategorie auf 1 
skaliert; die unskalierten Werte stehen innerhalb der Balken. 


Für Germanisten, die Shakespeare vor allem aus der Sicht Goethes und dessen 
Zeitgenossen wahrgenommen haben, ist es sicherlich ein überraschender Be- 
fund, dass dessen Stücke ausnahmslos Fünfakter sind. Die Stücke der Frühauf- 
klärung enthalten zu 45% Fünf-, zu 36% Drei- und zu 18% Einakter. Dies resul- 
tiert in einer durchschnittlichen Aktzahl von 3,6. Das Spektrum erweitert sich im 
Teilkorpus der populären Dramen: 25% dieser Stücke enthalten vier Akte und der 
Durchschnitt liegt bei fast 4, also etwas höher. Bemerkenswerterweise besteht 
mit 85% gerade der Großteil der Stücke des Sturm und Drang aus klassischen 
Fünfaktern; andererseits finden sich hier auch ungewöhnliche Abweichungen 
von regelpoetischen Setzungen, wie etwa Heinrich Leopold Wagners Die Kinder- 
mörderin, das aus sechs Akten besteht. In der Weimarer Klassik ist dies nicht der 
Fall; deren Stücke sind entweder Fünf- oder Einakter (75% und 25%). 

Allein die Analyse dieser makrostrukturellen Einheit führt zu einem auffal- 
lenden Ergebnis: Die Stürmer und Dränger setzen zwar Shakespeare für die Über- 
windung der klassischen Regeldramatik ein, es sind jedoch gerade diese beiden 
Teilkorpora, in der die klassische Fünfaktstruktur am stärksten vertreten ist. So 
lässt sich zwar durchaus konstatieren, dass die Stürmer und Dränger Shake- 
spearein diesem Aspekt folgen, dieser jedoch dramatischer Innovation diametral 
gegenübersteht. Er scheint also offensichtlich nicht Teil von Gerstenbergs revo- 
lutionärem »[wleg mit der Claßification« und Goethes Entsagung vom »regelmä- 
sigen Theater« zu sein. Wahrscheinlicher ist, dass die Akteinteilung eine »verges- 
sene: Kategorie dramatischer Poetologie und Praxis darstellt. Neben den 
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ubiquitären Fünf- und zumindest verbreiteten Drei- und Einaktern finden sich 
nur wenige Abweichungen von diesen Konventionen; insbesondere nach oben, 
wie etwa der genannte Sechsakter. Diese Ausnahmen müssen umso deutlicher 
als intendierte Deviationen von bestehenden Regeln oder Konventionen verstan- 
den werden. 

Die Analyse der Szenenzahl pro Drama lieferte vergleichbare Funde: Shake- 
speares Dramen bestehen aus durchschnittlich 20,2 Szenen, die Sturm und 
Drang-Stücke mit 26,6 Szenen aus etwas mehr. In starkem Kontrast hierzu stehen 
die anderen Teilkorpora, von denen beispielsweise die Stücke der Weimarer Klas- 
sik über dreißig Szenen (31,8) beinhalten. 

Schaut man hingegen auf die Variation der Szenenzahl innerhalb der Teil- 
korpora, so zeigen sich interessante Unterschiede. Shakespeares Dramen variie- 
ren am wenigsten, mit einer Standardabweichung von 6,9. Für die Stücke der 
Frühaufklärung ist sie etwas weniger als doppelt so hoch (11,8), während sie in 
Sturm und Drang, populären Stücken und Weimarer Klassik zwischen 18,4 und 
20,5 liegt. 


4.2 Szenen pro Akt 
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Abb. 2: Standardabweichung von Szenen pro Akt, limitiert auf Fünfakter. 


Gemäß Gottscheds Verständnis der Fünfakt-Regel muss jeder Akt ungefähr die 
gleiche Lange haben. Da wir Dramentexte jedoch nicht in Gottscheds Maß der 
»halbe[n] Stunde« messen können, orientieren wir uns behelfsmäßig an der den 
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Akten direkt untergeordneten Struktureinheit: der Szene. Die Standardabwei- 
chung der Szenen pro Akt lässt sich gut für jedes Drama bestimmen. Wenn alle 
Akte die gleiche Szenenanzahl haben, ist die Standardabweichung null. Grund- 
sätzlich gilt, dass eine niedrige Standardabweichung eine gleichmäßige Vertei- 
lung der Szenen auf Akte indiziert. 

Abbildung 2 zeigt die Standardabweichung für alle Stücke der Teilkorpora 
als Boxplot. Diese Visualisierungsform ordnet Datenpunkte (in diesem Fall die 
Einzeldramen) auf der Y-Achse hinsichtlich der Standardabweichung der Zahl 
von Szenen pro Akt, wobei die Daten zur besseren Übersicht in sogenannte Quar- 
tile zerlegt werden - Quartile beinhalten jeweils 25% der Daten. Die Stücke über 
und unterhalb der Box entsprechen also den oberen 75% bzw. unteren 25% der 
Dramen. Die Boxen selbst beinhalten die mittlere Hälfte der Stücke eines Teilkor- 
pus. Der die Box teilende Horizontalbalken ist der Median, der alle Daten bei 50% 
teilt. Boxplots erlauben so ein schnelles Erfassen der Datenverteilung. 

Der niedrigste Median wird von Shakespeares Teilkorpus gebildet. 50% die- 
ser Stücke haben eine Standardabweichung von 1,3 Szenen pro Akt (oder weni- 
ger). Shakespeare befolgt also die Richtlinie homogener Aktlängen sehr akkurat. 
Dabei ist jedoch noch nicht einmal sicher, ob Shakespeare die antiken Poetiken 
kannte oder ob er ausschließlich zeitgenössischen Konventionen folgte.” Wäh- 
rend im Extremfall bei Shakespeares A Midsummer Night’s Dream eine Stan- 
dardabweichung von 0 aus der Verteilung von genau zwei Szenen pro Akt resul- 
tiert, erlauben die Poetiken des Sturm und Drangs offenbar eine größere 
Flexibilität (Standardabweichung = 1,7). Im Stück mit der höchsten Abweichung 
— Goethes Götz von Berlichingen - variiert dieses Maß von 5 bis 22 Szenen pro Akt, 
erreicht also eine Standardabweichung von 7,1. 

Obgleich die Stürmer und Dränger Shakespeare in vielerlei Hinsicht nachei- 
fern, gehört die Verteilung der Szenen auf Akte nicht dazu. Aber auch die popu- 
lären Stücke haben eine verhältnismäßig hohe Standardabweichung über 2, was 
durch weichere Regeln für die dramatische Gattung Komödie zu erklären wäre. 
In der Weimarer Klassik und der Frühaufklärung (dessen Korpus zum Teil aus 
Stücken Gottscheds besteht) variieren die Szenenzahlen in den meisten Stücken 
nicht so stark (Ausnahmen: Schillers Wallensteins Tod und Goethes Die Aufgereg- 
ten), sicherlich aufgrund ihrer im ersten Fall direkten, im zweiten Fall indirekten, 
weil über Frankreich vermittelten Ausrichtung am Drama der Antike. Generell 


35 Diese Frage diskutiert Hans-Peter Eyink: Zum Einfluß von Shakespeares Tragödien und Histo- 
rien auf Puskins Drama »Boris Godunove«. Einteilungsprobleme des Dramas in Puskins Gesamtwerk. 
Münster (Westf.) 1987, S. 236. 
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lasst sich dennoch die Aussage formulieren, dass eine homogene Szenenvertei- 
lung nach Gottsched an Relevanz verliert. Einmal mehr jedoch muss betont 
werden, dass wie im Fall der starker konventionalisierten Fiinfakt-Regel Shake- 
speare diese klassische Regel am strengsten in eine dramatische Praxis über- 
führt. 


4.3 Figurenrede: Äußerungen, Sätze und Tokens 


Neben den makrostrukturellen Einheiten Akt und Szene lassen sich auch die un- 
tergeordneten dramatischen Strukturelemente wie Äußerungen, Sätze und To- 
kens zur Analyse dramatischer Texte einsetzen. Als Äußerung zählt jede Figuren- 
rede, die von einer Figur (oder mehreren gleichzeitig) geäußert wird. Falls sich 
zwei Figuren eine Äußerung teilen, wird sie als eine Äußerung gezählt. Auktori- 
ale Textelemente wie Szenenanweisungen werden wie auch Fußnoten nicht be- 
rücksichtigt. Zur Identifikation und Zählung von Sätzen verlassen wir uns auf die 
oben beschriebene automatische Satzgrenzenbestimmung. Relativ selten finden 
wir jedoch grammatisch unvollständige Sätze, die als vollständige Sätze gezählt 
werden (etwa diejenigen ohne finites Verb, wie in Romeo: »Um neun Uhr« / 
Romeo: »At the hour of nine«). Tokens werden ausschließlich innerhalb der Fi- 
gurenrede gezählt. 


1.0 < 
0.8 j a 
0.6 Yj \ 

y 

: z Se 
210) Br 

ING \ Sturm und Drang 

0.0 AG YN Weimarer Klassik 


Utterance Sentence Token 


Abb. 3: Durchschnittliche Anzahl an Äußerungen, Sätzen und Tokens. Die Werte sind in jeder 
Kategorie auf 1 skaliert; die unskalierten Werte stehen innerhalb der Balken. 


Indirekte Operationalisierung in der digitalen Dramenanalyse —— 59 


Abbildung 3 verdeutlicht, dass in jeder gemessenen Kategorie die Stiicke der 
Frühaufklärung am kürzesten sind. Die Verteilung der anderen Subkorpora ist 
ebenfalls interessant. Hinsichtlich der Tokens haben die populären Stücke und 
die der Weimarer Klassik einen einigermaßen vergleichbaren Wert. Die gleichen 
Subkorpora ergeben jedoch gemessen hinsichtlich der Satzzahl ein völlig unter- 
schiedliches Ergebnis: In der Weimarer Klassik ist sie bedeutend niedriger. Un- 
sere Beobachtung einer Vergleichbarkeit von Stücken des Sturm und Drangs und 
Shakespeares bildet sich hier ebenfalls ab (allerdings unter Ausnahme der Satz- 
zahl). In den Kategorien Äußerungen und Tokens sind die Sturm und Drang-Stü- 
cke denen Shakespeares am ähnlichsten. 

Das Verhältnis von Tokens zu Satzzahl erlaubt Rückschlüsse auf die Satz- 
länge. Die Stücke Shakespeares beinhalten die längsten Sätze (16,1 Token/Satz), 
gefolgt von denen der Weimarer Klassik (13,8 Token/Satz) und der Frühaufklä- 
rung (12,3 Token/Satz). In dieser Dimension quantitativer Dramenanalyse unter- 
scheiden sich die Sturm und Drang-Dramen mit einer Satzlänge von 11,2 To- 
ken/Satz am stärksten von Shakespeare. Zu beachten ist allerdings, dass die 
Schlegel/Tieck-Übersetzungen von Shakespeare in Versform geschrieben wur- 
den, was Auswirkungen auf die Satzstruktur haben dürfte. 

Aber auch die Analyse der Äußerungen ist nicht uninteressant: Während die 
populären Stücke in den Kategorien Token und Sätze an zweiter, bzw. dritter 
Stelle zu verorten sind, beinhalten sie mit Abstand die höchste Zahl an Äußerun- 
gen. Daraus lässt sich ableiten, dass in diesem Teilkorpus die Länge der Äuße- 
rungen am kürzesten sein muss. Verstehen lässt sich dieser Befund als Resultat 
der dramatischen Gattung und der davon abhängigen Komposition des Perso- 
nals. Mit sechs Lustspielen und sechs Schauspielen, Familien, bzw. Sittengemäl- 
den ist das soziale Setting dieser Stücke - abgesehen von wenigen Ausnahmen - 
die bürgerliche Stube und eben nicht der königliche Hof.* Das intendierte Publi- 
kum solcher bürgerlichen Komödien und Schauspiele, ihre Handlungen und Wir- 
kungsintentionen erklären auch unseren an anderer Stelle präsentierten Fund, 
dass die Sprache der Komödien soziale Interaktionen und Figureneigenschaften 
repräsentiert, die Sprache in Tragödien hingegen existenzielle Konflikte.” Da die 


36 Zwar sind auch im Teilkorpus der Frühaufklärung überwiegend Komödien zu finden, die 
Sprache scheint jedoch noch nicht so stark der rhetorische Diktion der Natürlichkeit unterworfen 
zu sein. Vgl. die Diskussion der Abbildung 8. 

37 Die fünfzehn am stärksten mit Komödien korrelierenden Wörter aus einem Sample von 
knapp zweihundert Dramen des TextGrid-Korpus sind »gut, frauenzimmer, machen, sagen, 
herr, verstehen, wissen, sache, leute, lieber, hübsch, dumm, fein, bekommen, nehmen«. Die 15 
entsprechenden Wörter der Tragödien sind: »abgrund, haupt, aug, mörder, brust, tod, blut, le- 
bend, fluch, mord, heil, antlitz, beugen, schmach, empor«. Vgl. hierzu Marcus Willand und Nils 
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zur Verhandlung dieser so unterschiedlichen Themen verwendete Sprache zu- 
mindest annäherungsweise die natürliche Sprache echter Menschen imitiert, 
wird auch augenscheinlich, warum eine durchschnittliche Äußerung in popula- 
ren Stücken 17,8 Token lang ist, in den anderen Teilkorpora aber jeweils fast 31. 
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Abb. 4: Verteilung der Anzahl von Tokens pro Teilkorpus. 


Ähnlich wie bei der Analyse von Szenen in Akten werden wir auch hier nicht nur 
die durchschnittliche Anzahl an Tokens, sondern auch deren Verteilung inner- 
halb der Teilkorpora anschauen: Die Verteilung der Gesamtzahl an Äußerungen 
(siehe oben) war in allen Teilkorpora sehr ähnlich. Bei der Verteilung der Tokens 
(und der nicht abgebildeten Sätze) zeigt sich ein anderes Bild. Wie die Boxen und 
die einzelnen Datenpunkte in Abbildung 4 zeigen, ist sie bei Sturm und Drang- 
Stücken größer als in den Vergleichskorpora. Müllers Golo und Genovefa ist mit 
50.000 Tokens der mit Abstand längste Text. Dass in diesem Teilkorpus deutlich 
längere, aber auch kürzere Dramen produziert werden, scheint die These zu be- 
stätigen, dass einige der klassischen Dramenregeln im Sturm und Drang nicht 
mehr gelten. 


Reiter: »Geschlecht und Gattung. Digitale Analysen von Kleists Familie Schroffenstein«, in: 
Kleist-Jahrbuch (2017), S.177-195, hier S.157. Eine Kurzfassung ist online verfügbar, 
https://quadrama.github.io/blog/2016/10/07/ottokar-capulet (07. Juli 2017). 
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4.4 Figurenanzahl 


Im ersten Abschnitt Poetologische Programmatiken konnten wir zwar zeigen, dass 
die Konzeption dramatischer Figuren ein zentraler Gegenstand poetologischer 
Diskussionen war, leider lassen sich die daraus resultierenden unterschiedlichen 
Figurenkonzeptionen aufgrund ihrer multidimensionalen Komplexitat und his- 
torischen Variabilität nicht direkt messen. Eine sehr grundlegende Annäherung 
an dieses Problem besteht in der Zählung der in den dramatis personae genann- 
ten Figuren. Die zugrundeliegende Annahme ist die, dass natürliche Figurenen- 
sembles — im Goethe’schen Sinne entworfen vom genialen Schöpfer-Halbgott” — 
die Weltim Ganzen repräsentieren sollen und daher deutlich größer sind als etwa 
die von bürgerlichen Trauerspielen. 
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Abb. 5: Verteilung der Figurenanzahl in den dramatis personae pro Teilkorpus. Vier Stücke 
ohne dramatis personae wurden nicht berücksichtig (alle aus Sturm und Drang). 


Abbildung 5 zeigt die Figurenanzahl laut dramatis personae und ihre Verteilung. 
Wie zu erwarten war, finden sich in Shakespeare-Stücken die meisten Figuren 


38 Johann Wolfgang von Goethe: »Von deutscher Baukunst«, in: Goethes Werke. Hamburger 
Ausgabe in 14 Bänden. Bd. 12, hg. v. Erich Trunz. Hamburg “1960, S. 116. 
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und tatsächlich ist auch die Varianz zwischen den Stücken gering: 50% der Texte 
Shakespeares nennen 20-28 Figuren. Dieser Wert wird von keinem anderen Teil- 
korpus erreicht. So ist der Median der Sturm und Drang-Stücke dem der populä- 
ren Stücke sehr ähnlich, wie auch die Variation bei den erstgenannten nur ge- 
ringfügig größer ist. Tatsächlich zeigt sich für den Sturm und Drang, dass es hier 
einige wenige Stücke gibt (repräsentiert durch die sehr hohen und niedrigen Da- 
tenpunkte), die hinsichtlich der Figurenzahl stark abweichen. Aber selbst das 
Stück mit den meisten dramatis personae enthält noch weniger Figuren als das 
Shakespeare-Stück mit den meisten Figuren. Insgesamt ist die mittlere Figuren- 
zahl überraschend nah an den Konventionen der Zeit (vgl. populäre Stücke; die 
Stücke der Frühaufklärung sind zu diesem Zeitpunkt schon über 20-40 Jahre alt). 

Schaut man auf die Mediane, so zeigt sich, dass es nicht der Sturm und 
Drang, sondern die Weimarer Klassik ist, die hinsichtlich der Figurenzahl Shake- 
speare am nächsten kommt. Mit 19 Figuren liegt er zwar etwas niedriger als bei 
dem Engländer, das Stück mit den meisten Figuren (Schillers Wilhelm Tell) lässt 
die Cast-Lists Shakespeares jedoch weit hinter sich. Andererseits zeigt sich hier — 
etwa anhand Goethes Iphigenie, einem Stück mit 5 Figuren - auch die Möglich- 
keit, den unteren Rand des Spektrums auszuschöpfen. 


4.5 Erster Auftritt der Figuren 


Da sie von den Franzosen — namentlich Corneille - eingeführt wurde und tibli- 
cherweise als (Fehl-)Interpretation der klassischen Poetik verstanden wird, ha- 
ben wir sie noch nicht erwähnt, obgleich sie in Deutschland durchaus bekannt 
war: Die dramatische Regel, dass keine der Hauptfiguren auf der Bühne auftreten 
sollte, wenn sie nicht im 1. Akt schon selbst präsent (oder zumindest erwähnt 
worden) war.” Untersuchbar wird diese Regel durch folgende Annäherung: Wir 
wählen aus jedem Stück die fünf Figuren mit dem größten Redeanteil in Wörtern 
aus, da diese mit einiger Sicherheit im Sinne Corneilles Hauptfiguren sind, und 
messen den Akt ihres ersten Auftritts. Abbildung 6 zeigt die Ergebnisse als Bal- 
kendiagramm. 78% der Shakespeare-Figuren treten zuerst im 1. Akt auf, 15% im 
zweiten usw. Schlegel mag also im Recht sein mit seiner oben zitierten Kritik, 
Shakespeare begönne seinen Julius Caesar »mit einem Haufen Pöbel«, dies be- 
deutet jedoch nicht, dass dieser deswegen von dramatischen Konventionen oder 


39 Vgl. Bernhard Asmuth: Einführung in die Dramenanalyse. 5., aktualisierte Auflage. Stuttgart 
1997 (Sammlung Metzler, Bd. 188), S. 42. 
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Regeln abweiche. Tatsächlich ist es der Fall, dass Shakespeare - dieser Anachro- 
nismus sei erlaubt — der Corneille’schen Regel treuer ergeben ist als Schlegel 
selbst, als Gellert und andere Zeitgenossen. 
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Abb. 6: Erster Auftritt der fünf Figuren mit dem größten Redeanteil. 


Das Diagramm zeigt sehr deutlich, dass die meisten Figuren in allen Teilkorpora 
ihren ersten Auftritt im 1. Akt haben, obgleich es auch in jedem Sample Figuren 
gibt, die erst im 2. und 3. Akt auftreten, teilweise - d.h. nicht in der Weimarer 
Klassik - sogar im 4. und 5. Akt. Auch hier lassen sich Ähnlichkeiten zwischen 
Shakespeare und dem Sturm und Drang identifizieren. Beide Teilkorpora bein- 
halten anteilig die meisten im 1. Akt eingeführten Figuren (78% und 79%), wobei 
die Proportionen im 2. Akt - mit 15% und 14% eingeführter Figuren - erhalten 
bleiben. 

Der liberalste Umgang mit der Corneille’schen Regel findet sich in den Teil- 
korpora Populäre Stücke (1. Akt: 71%) und Weimarer Klassik (1. Akt: 70%), wobei 
der zweite Befund angesichts der programmatischen Ausrichtung an klassischen 
Dramenkonzeptionen zumindest etwas überraschend ist. Vielleicht zeigt er aber 
auch gerade einen Unterschied zwischen den Poetiken der Antike und der Fran- 
zosen auf. 

Die Ergebnisse sind jedoch nicht unabhängig von der Länge der dramati- 
schen Texte. Die Autoren der längsten Stücke im Korpus (Shakespeare, Sturm 
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und Drang) folgen eventuell dem aufmerksamkeitsökonomischen Prinzip, der li- 
mitierten Aufmerksamkeitsleistungen des Publikums durch eine frühe, explizite 
Einführung der wichtigsten Figuren gerecht zu werden. 


4.6 Auftrittsreihenfolge der Figuren 


Neben der Gesamtzahl auftretender Figuren und ihrem jeweils ersten Auftritt ist 
die Auftrittsreihenfolge eventuell als Aspekt der dramatischen Konzeption zu be- 
rücksichtigen. Im Folgenden untersuchen wir daher das Verhältnis der Figuren- 
reihenfolge nach ihrer Nennung in den dramatis personae (Abbildung 7, y-Achse) 
zu ihrer Auftrittsreihenfolge im Stück selbst (x-Achse). Die Größe der Punkte in 
Abbildung 7 repräsentiert die Anzahl der Figuren, die einem konkreten Verhält- 
nis entsprechen. Da unsere oben beschriebene Verknüpfung von Sprechern und 
Figuren noch nicht vollständig ist, werden einige Nebenfiguren nicht abgebildet. 
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Abb. 7: Figurenreihenfolge in den dramatis personae (y-Achse) und Auftrittsreihenfolge im 
Stück (x-Achse). Die Punkte sind nach der Zahl der Figuren für ein konkretes Verhältnis ska- 
liert. 
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Der obige Shakespeare-plot ist aus zweierlei Gründen stärker bevölkert als die 
anderen plots: Dieses Teilkorpus beinhaltet mehr Stücke und diese Stücke bein- 
halten jeweils sehr viele Figuren. 

In allen Teilkorpora — unter Ausnahme der populären Stücke - lässt sich eine 
höhere Konzentration an Figuren im linken unteren Abschnitt erkennen. Figu- 
ren, die oben in der Figurentafel genannt werden, tendieren dazu, auch früher 
im Stück selbst aufzutreten — wobei dies auch vice versa formuliert werden kann. 
Die Stücke der Frühaufklärung zeigen eine relativ große Figurendichte innerhalb 
und recht wenige Figuren außerhalb der 7x7-Marke. Dies lässt sich auf die weni- 
gen Figuren in diesen Stücken zurückführen. Bei den deutlich figurenreicheren 
Teilkorpora des Sturm und Drang und der Weimarer Klassik lässt sich mit etwas 
gutem Willen eine lineare Relation zwischen x- und y-Wert erkennen. 

Darüber hinaus unterscheidet sich die Weimarer Klassik von den anderen 
Teilkorpora auch noch durch fehlende Ausnahmen: Die anderen Teilkorpora ent- 
halten Punkte rechts unten oder links oben - was Figuren aufzeigt, die spät er- 
scheinen, aber hoch gelistet wurden bzw. die früh erscheinen, aber unten in der 
Figurentafel stehen. Autoren dieser Zeit scheinen in diesem Aspekt formal 
strenge Regeln anzuwenden. 

Aber auch die Strukturierung der dramatis personae kann zur Erklärung her- 
angezogen werden, etwa im Falle der populären Stücke. Während die meisten 
Dramengattungen hierbei die gängige soziale Ordnung (oder weniger häufig: die 
Auftrittsreihenfolge) abbilden, ist dies in den durch die populären Stücke reprä- 
sentierten Gattungen nicht so eindeutig. Wie zuvor erwähnt sind diese Stücke im 
Milieu der bürgerlichen Familie verortet und daher wird die Figurentafel vom Fa- 
milienvater (wie in Ifflands Die Jäger) oder seltener seiner titelgebenden Tochter 
(wie Emilia oder Sara) angeführt. Da vor anderen - auch zentralen Figuren wie 
Marinelli - erst einmal die komplette Familie unterzuordnen ist (seine Frau, seine 
Tochter, ...), können unwichtige Figuren relativ weit oben in der Figurentafel auf- 
tauchen. 
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4.7 PoS-Detektion: Interjektionen 
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Abb. 8: Relative Frequenz von Interjektion pro Drama. 


In der Diskussion der Abbildung 3 haben wir Äußerungslänge mit sozialem Stand 
der Figuren in Verbindung gebracht. Es ist jedoch noch ein weiterer Faktor zu 
berücksichtigen: Der durch Lessing forcierte »Versuch, die rhetorische Diktion 
dem Gesetz der Natürlichkeit unterzuordnen«.“ Seit der zweiten Hälfte des 18. 
Jahrhunderts lässt sich — durchaus auch mit Blick auf Shakespeare - die abneh- 
mende Satzlänge in Abhängigkeit der poetologischen Forderung einer imita- 
tio von Personen anstelle von Handlungen (siehe Schlegel oben) verstehen. Wir 
gehen davon aus, dass diese Orientierung an gesprochener Sprache eine mögli- 
che Erklärung für die verhältnismäßig kurzen Sätze in den Stücken des Sturm 
und Drang ist. 

Typischerweise enthält gesprochene Sprache viele Ausrufe wie ach, oha oder 
das berühmte Werther’sche o. Im STTS-Tagset*! werden diese Wörter als Interjek- 
tionen bezeichnet und von unserem PoS-Tagger entsprechend markiert. Abbil- 
dung 8 zeigt die relative Häufigkeit von Interjektionen pro Drama und Teilkorpus. 
Sie macht vor allem deutlich, dass Interjektionen nicht sehr verbreitet sind und 


40 Vgl. Walter Jens: Von deutscher Rede. München 1969, S. 58. 
41 http://www.ims.uni-stuttgart.de/forschung/ressourcen/lexika/GermanTagsets.html, 
(07. Juli 2017). 
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weniger als 1% des dramatischen Textes ausmachen. Dennoch lassen sich sub- 
stanzielle Unterschiede der Teilkorpora identifizieren. Erwartungsgemäß bein- 
halten die populären Stücke die meisten Interjektionen: 50% der Texte enthalten 
zwischen 0,25% und 0,35% Interjektionen. Shakespeare verwendet Interjektio- 
nen eher zurückhaltend, wobei berücksichtigt werden muss, dass wir (aus- 
schließlich aus Gründer der Verfügbarkeit) die Übersetzung von Schlegel/Tieck 
verwenden. Diese orientiert sich nicht zu geringen Teilen an der Wieland’schen 
und dieser hatte ja gerade bezüglich der vulgären Sprache Shakespeares einige 
Bedenken anzumelden - und übersetzte sie nicht immer mit.” 

Der Sturm und Drang erlaubt einmal mehr Experimente in beide Richtungen, 
aber lediglich in sehr moderatem Ausmaß; sogar die Stücke der Frühaufklärung 
variieren stärker bei der Verwendung von Interjektionen. Der auffälligste Befund 
dieser Analyse bezieht sich auf die Weimarer Klassik. Interjektionen werden hier 
kaum verwendet - mit wenigen Ausnahmen wie Schillers Wallensteins Lager; 
aber selbst dieser macht nur spärlichen Gebrauch von ihnen. 


5 Zusammenfassung der Ergebnisse 


Es ist keine neue Erkenntnis, dass die Dramen des Sturm und Drang in vielerlei 
Hinsicht mehr Varianz zeigen als die Dramen anderer Strömungen oder Epo- 
chen“? — diese Beobachtung entspricht nicht zuletzt dem poetologischen Pro- 
sramm des Regelbruchs und der Ausrichtung an einer natürlichen Figurengestal- 
tung. Unsere Analysen gehen jedoch über eine reine Bestätigung existierenden 
Wissens hinaus: So brechen die Sturm und Drang-Dramen zwar einige Regeln, 
die in anderen Epochen eingehalten werden, sie werfen allerdings längst nicht 
alle Konventionen über Bord. Einige der Beobachtungen, die wir in diesem Kapi- 
tel beschrieben haben, sind überraschend konservativ: Die große Mehrheit der 
Dramen sind Fünf-Akt-Dramen, die meisten Figuren werden im 1. Akt eingeführt. 
In diesen Aspekten ‚folgen‘ die Sturm und Drang-Autoren Shakespeare sehr ge- 
nau, was natürlich als Einfluss Shakespeares auf die Epoche des Sturm und 
Drang verstanden werden kann; diese Aspekte stehen jedoch gerade nicht in Ein- 
klang mit deren poetologischen Selbstansprüchen - die Autoren des Sturm und 


42 Vgl. Sabine Kob: Wielands Shakespeare-Übersetzung: Ihre Entstehung und ihre Rezeption im 
Sturm und Drang. Frankfurt a. M. u. a. 2000. 

43 Vgl. Francis Lamport: »Shakespeare has quite spoilt you«. The Drama of the Sturm und 
Drang«, in: Literature of the Sturm und Drang, hg. v. David Hill. New York 2003, S. 117-139. 
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Drangs folgen Shakespeare also ausgerechnet in den Aspekten, in denen Shake- 
speare selbst vergleichsweise konservativ bleibt. Es ist fraglich, ob ihnen dies bei 
der Shakespeare entgegengebrachten Verehrung bewusst war. Wahrscheinlicher 
scheint, dass diese strukturellen Aspekte schlicht nicht wahrgenommen oder als 
irrelevant abgetan wurden, auch wenn sie zwischenzeitlich explizit als dramati- 
sche Regeln formuliert und bekannt waren. In jedem Fall zeigen diese Funde, 
dass weder Shakespeare noch die Stürmer und Dränger Regeln und Konventio- 
nen vollständig negierten. 

In anderen Fällen - z.B. die Anzahl der Szenen pro Akt oder die Dramen- 
länge in Tokens - brechen die Autoren des Sturm und Drang mit Traditionen, die 
Shakespeare selbst befolgt hat. Dies ließe sich als eine Art »Verallgemeinerung« 
Shakespeares lesen: Er missachtete hauptsächlich figurenbezogene dramatische 
Regeln, was in der unter französischem Einfluss stehenden Frühaufklärung 
strikte Ablehnung fand. Die positive Umkehrung dieser Wahrnehmung Shake- 
speares als Regelbrecher und Genie erlaubte es den deutschen Autoren der 
nächsten Generation allerdings, mehr und mehr Möglichkeiten auszuprobieren 
und führte schlussendlich zu mehr dramatischer Variation als in den anderen 
Teilkorpora. 

Auf der methodischen Ebene hat sich unsere initiale Erwartung bestätigt, 
dass es eine gewisse Lücke zwischen den komplexen poetologischen Aussagen 
einerseits und möglichen Operationalisierungen andererseits gibt. Für diese Lü- 
cke gibt es zwei Hauptgründe, einen technischen und einen konzeptuellen: Die 
Fähigkeit von Computern, menschliche Sprache wie ein Mensch zu verarbeiten, 
ist limitiert.“ Dies begrenzt wiederum unsere Möglichkeiten, Behauptungen, For- 
derungen und dergleichen quantitativ zu überprüfen. Die quantitative Analyse 
der Referenzen auf Figuren, um nur ein Beispiel zu nennen, setzt die Auflösung 
anaphorischer Referenzen (z. B. Pronomen) voraus, wozu es noch kein etablier- 
tes Verfahren für dramatische Texte gibt. Darüber hinaus gilt die Anaphernauf- 
lösung selbst auf Zeitungstexten als relativ schwieriges Problem, für das eine 
Vielzahl unterschiedlicher Wissensquellen relevant ist. Auch wenn in den letzten 
Jahren massive Fortschritte in der Computerlinguistik erzielt wurden, hat die Ar- 
beit an literarischen Texten gerade erst begonnen. Es ist davon auszugehen, dass 


44 John Bradley diskutiert dies im Kontext des Anspruchs, »to balance the computer’s ability 
to carry out a set of formal tasks against the need of the human user to introduce and recognize 
rather more non-deterministic material in an analysis« (Vgl. John Bradley: »Finding a Middle 
Ground between »Determinism< and »Aesthetic Indeterminacy«. A Model for Text Analysis 
Tools«, in: Literary and Linguistic Computing 18.2 (2003), S. 185-207, hier S. 185). 
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zumindest etablierte computerlinguistische Werkzeuge in der nicht allzu fernen 
Zukunft auf literarischen Texten ähnlich gut arbeiten wie auf Zeitungstexten. 

Werkzeuge für andere Textanalyseaufgaben (wie z. B. die Natürlichkeit von 
Figurenrede zu bewerten) sind — aus der technischen Perspektive - deutlich 
schwieriger, und das hat mit den oben angesprochenen konzeptuellen Gründen 
zu tun: Das Merkmal der Natürlichkeit von Shakespeares Figuren mag zwar intu- 
itiv verständlich sein, ist aber leider sehr vage. Poetiken beschreiben typischer- 
weise nicht en detail, wie sich die Natürlichkeit einer Figur genau bemisst (über 
ihre Sprache? Die Zusammensetzung der Figuren insgesamt? Das Verhalten von 
Figuren?). Der Eindruck der Vagheit resultiert aus der extremen Kontextabhän- 
gigkeit dieser Behauptungen. Diese unklaren Kontexte generieren eine interpre- 
tative Offenheit nicht nur für dramatische, sondern auch für poetologische Texte. 

Es wird daher auf absehbare Zeit sehr schwierig bleiben, poetologische An- 
nahmen, Behauptungen und Beobachtungen direkt zu operationalisieren. Wie 
wir mit unseren Analysen zu zeigen versucht haben, finden sich jedoch Operati- 
onalisierungen, die möglicherweise als Proxy für komplexere Phänomene fun- 
gieren können und damit indirekte Operationalisierungen poetologischer (und 
auch literaturwissenschaftlicher) Konzepte erlauben.“ Quantitative Aussagen 
über Texte oder Textmerkmale, die auf diese Weise gemacht werden, lassen sich 
dann auf poetologische Aussagen rückbeziehen, sind jedoch gleichzeitig konkret 
definiert und nachvollziehbar - bis hin zur technischen Reproduktion. Auf diese 
Weise helfen empirische Methoden der digitalen Dramenanalyse dabei, sowohl 
poetologische Ansprüche unterstützende als auch gegenläufige Eigenschaften 
dramatischer Texte aufzudecken. Beides kann in dem hier vorgestellten Fall die 
Diskussionen über den Einfluss Shakespeares auf das deutsche Drama sowie 
über das Verhältnis von poetologischem Anspruch und dramatischer Wirklich- 
keit befruchten. 


45 In diesem Sinne versuchen wir nicht — wie etwa Moretti —- bestehende Konzepte der Litera- 
turwissenschaft anzugreifen (»the leap from measurement to reconceptualization [...] demon- 
strates how the unprecedented empirical power of digital tools and archives offers a unique 
chance to rethink the categories of literary study«; Franco Moretti: »»Operationalizing« or, the 
function of measurement in literary theory«, in: Literary Lab 6 (2013), S. 13). Wir interessieren 
uns vielmehr für die Möglichkeit, bestehende Konzepte zu formalisieren. 
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Appendix 


Tab. 1: Einordnung der Dramen in Teilkorpora 


Titel 


Romeo und Julietta 

Julius Cäsar 

König Richard Il. 

König Heinrich VI. Dritter Teil 
Was ihr wollt 

Viel Larmen um nichts 

König Heinrich VI. Erster Teil 
Der Sturm 

Titus Andronicus 

Ein Sommernachtstraum 

Wie es euch gefällt 

Timon von Athen 

Der Kaufmann von Venedig 
Das Wintermarchen 
Coriolanus 

Macbeth 

Die lustigen Weiber von Windsor 
Ende gut, alles gut 

Konig Heinrich IV. Zweiter Teil 
Cymbeline 

Der Widerspenstigen Zahmung 
Troilus und Cressida 

König Heinrich VIII. 

Perikles 

Die beiden Veroneser 

Othello 

Die Komödie der Irrungen 
Maß für Maß 

Hamlet. Prinz von Dänemark 
Liebes Leid und Lust 


Autor 


Shakespeare, William 
Shakespeare, William 
Shakespeare, William 
Shakespeare, William 
Shakespeare, William 
Shakespeare, William 
Shakespeare, William 
Shakespeare, William 
Shakespeare, William 
Shakespeare, William 
Shakespeare, William 
Shakespeare, William 
Shakespeare, William 
Shakespeare, William 
Shakespeare, William 
Shakespeare, William 
Shakespeare, William 
Shakespeare, William 
Shakespeare, William 
Shakespeare, William 
Shakespeare, William 
Shakespeare, William 
Shakespeare, William 
Shakespeare, William 
Shakespeare, William 
Shakespeare, William 
Shakespeare, William 
Shakespeare, William 
Shakespeare, William 


Shakespeare, William 


Korpus- 
zuordnung 


Shakespeare 
Shakespeare 
Shakespeare 
Shakespeare 
Shakespeare 
Shakespeare 
Shakespeare 
Shakespeare 
Shakespeare 
Shakespeare 
Shakespeare 
Shakespeare 
Shakespeare 
Shakespeare 
Shakespeare 
Shakespeare 
Shakespeare 
Shakespeare 
Shakespeare 
Shakespeare 
Shakespeare 
Shakespeare 
Shakespeare 
Shakespeare 
Shakespeare 
Shakespeare 
Shakespeare 
Shakespeare 
Shakespeare 


Shakespeare 
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Titel 


Romeo und Julia 

König Heinrich V. 

König Richard Ill. 

Antonius und Cleopatra 

König Lear 

König Heinrich VI. Zweiter Teil 
König Heinrich IV. Erster Teil 
König Johann 

Der Bookesbeutel 

Die zärtlichen Schwestern 

Die Betschwester 

Der sterbende Cato 

Atalanta oder die bezwungene Sprödigkeit 
Das Testament 

Der Witzling 

Die Pietisterey im Fischbein-Rocke 
Die Candidaten oder Die Mittel [...] 
Die Geistlichen auf dem Lande 

Die alte Jungfer 

Der Freigeist 

Der junge Gelehrte 

Der Misogyn 

Die Juden 

Damon, oder die wahre Freundschaft 
Die Schäferinsel 

Der Hypochondrist 

Canut 

Die stumme Schönheit 

Der geschäftige Müßiggänger 

Der Triumph der guten Frauen 

Das Erbtheil des Vaters 

Die Jäger 

Figaro in Deutschland 

Verbrechen aus Ehrsucht 


Der Spieler 


Autor 


Shakespeare, William 
Shakespeare, William 
Shakespeare, William 
Shakespeare, William 
Shakespeare, William 
Shakespeare, William 
Shakespeare, William 
Shakespeare, William 
Borkenstein, Hinrich 
Gellert, Christian F. 
Gellert, Christian F. 
Gottsched, Johann Chr. 
Gottsched, Johann Chr. 
Gottsched, Luise A. V. 
Gottsched, Luise A. V. 
Gottsched, Luise A. V. 
Kriiger, Johann Chr. 
Krüger, Johann Chr. 
Lessing, Gotthold E. 
Lessing, Gotthold E. 
Lessing, Gotthold E. 
Lessing, Gotthold E. 
Lessing, Gotthold E. 
Lessing, Gotthold E. 
Mylius, Christlob 
Quistorp, Theodor J. 
Schlegel, Johann Elias 
Schlegel, Johann Elias 
Schlegel, Johann Elias 
Schlegel, Johann Elias 
Iffland, August Wilhelm 
Iffland, August Wilhelm 
Iffland, August Wilhelm 
Iffland, August Wilhelm 
Iffland, August Wilhelm 


Korpus- 
zuordnung 
Shakespeare 
Shakespeare 
Shakespeare 
Shakespeare 
Shakespeare 
Shakespeare 
Shakespeare 
Shakespeare 
Frühaufklärung 
Frühaufklärung 
Frühaufklärung 
Frühaufklärung 
Frühaufklärung 
Frühaufklärung 
Frühaufklärung 
Frühaufklärung 
Frühaufklärung 
Frühaufklärung 
Frühaufklärung 
Frühaufklärung 
Frühaufklärung 
Frühaufklärung 
Frühaufklärung 
Frühaufklärung 
Frühaufklärung 
Frühaufklärung 
Frühaufklärung 
Frühaufklärung 
Frühaufklärung 
Frühaufklärung 
Populäre Stücke 
Populäre Stücke 
Populäre Stücke 
Populäre Stücke 


Populäre Stücke 
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Titel Autor Korpus- 
zuordnung 


Die deutschen Kleinstädter Kotzebue, August von Populäre Stücke 
Der Wildschütz oder Die Stimme der Natur Kotzebue, August von Populäre Stücke 
Menschenhaß und Reue Kotzebue, August von Populäre Stücke 
Der Hyperboreische Esel, oder |...] Kotzebue, August von Populäre Stücke 
Die Indianer in England Kotzebue, August von Populäre Stücke 
Die beiden Klingsberg Kotzebue, August von Populäre Stücke 


Der Vetter in Lissabon 


Faust [in ursprünglicher Gestalt] 


Clavigo 


Götz von Berlichingen mit der eisernen Hand 


Das Jahrmarktsfest zu Plundersweilern 


Egmont 

Stella 

Ugolino 

Sturm und Drang 
Die Zwillinge 

Die neue Arria 
Das leidende Weib 
Simsone Grisaldo 


Julius von Tarent 


Pandämonium Germanicum 


Die Soldaten 


Der Hofmeister oder [...] 


Der neue Menoza 


Golo und Genovefa 


Don Carlos, Infant von Spanien 


Kabale und Liebe 


Die Verschwörung des Fiesco zu Genua 


Die Räuber 
Die Kindermörderin 
Torquato Tasso 


Die Aufgeregten 


Iphigenie auf Tauris 


Der Bürgergeneral 


Der Großkophta 


Schröder, Friedrich L. Populäre Stücke 


Goethe, Johann W. 
Goethe, Johann W. 
Goethe, Johann W. 
Goethe, Johann W. 
Goethe, Johann W. 
Goethe, Johann W. 
Gerstenberg, Heinrich 
Klinger, Friedrich M. 
Klinger, Friedrich M. 
Klinger, Friedrich M. 
Klinger, Friedrich M. 
Klinger, Friedrich M. 
Leisewitz, Johann Anton 
Lenz, J. M. R. 

Lenz, J. M. R. 

Lenz, J. M. R. 

Lenz, J. M. R. 

Maler Müller 
Schiller, Friedrich 
Schiller, Friedrich 
Schiller, Friedrich 
Schiller, Friedrich 
Wagner, Heinrich L. 
Goethe, Johann W. 
Goethe, Johann W. 
Goethe, Johann W. 
Goethe, Johann W. 
Goethe, Johann W. 


Sturm und Drang 
Sturm und Drang 
Sturm und Drang 
Sturm und Drang 
Sturm und Drang 
Sturm und Drang 
Sturm und Drang 
Sturm und Drang 
Sturm und Drang 
Sturm und Drang 
Sturm und Drang 
Sturm und Drang 
Sturm und Drang 
Sturm und Drang 
Sturm und Drang 
Sturm und Drang 
Sturm und Drang 
Sturm und Drang 
Sturm und Drang 
Sturm und Drang 
Sturm und Drang 
Sturm und Drang 
Sturm und Drang 
Weimarer Klassik 
Weimarer Klassik 
Weimarer Klassik 
Weimarer Klassik 


Weimarer Klassik 
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Titel Autor Korpus- 


zuordnung 
Maria Stuart Schiller, Friedrich Weimarer Klassik 
Wallensteins Lager Schiller, Friedrich Weimarer Klassik 
Wilhelm Tell Schiller, Friedrich Weimarer Klassik 
Die Piccolomini Schiller, Friedrich Weimarer Klassik 
Die Jungfrau von Orleans Schiller, Friedrich Weimarer Klassik 
Die Braut von Messina oder |...] Schiller, Friedrich Weimarer Klassik 


Wallensteins Tod Schiller, Friedrich Weimarer Klassik 
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Christof Schöch 
Zeta fiir die kontrastive Analyse 
literarischer Texte 


Theorie, Implementierung, Fallstudie 


Abstract: The comparative, contrasting analysis of two or more texts or groups of 
texts is a method widely used in linguistics and literary studies. In Corpus Lin- 
guistics, Computational Linguistics and Digital Literary Studies, relevant 
measures of distinctiveness or keyness have been developed for the contrastive 
analysis of texts and have been applied to a wide variety of research questions. 
One such measure, one that has been developed in the area called Stylometry, is 
Zeta. It has originally been proposed by John Burrows in 2007. A variant of this 
measure is being described in some detail in this contribution. Based on a new 
implementation of the measure that also offers several different ways of visualiz- 
ing the results, the procedure is illustrated using the example of a comparison of 
the three dramatic genres of comedy, tragedy and tragicomedy. The aim of this 
contribution is to foster a more precise understanding of the properties of the Zeta 
measure and to support its wider use in Digital Literary Studies. It is a measure 
that is easy to understand on the mathematical level while producing highly in- 
terpretable results. 


Einleitung 


Die vergleichende, kontrastierende Analyse zweier oder mehrerer Texte oder 
Gruppen von Texten ist ein in den Sprach- und Literaturwissenschaften weit ver- 
breitetes Verfahren. Die Korpuslinguistik, Computerlinguistik und digitale Philo- 
logie haben entsprechende Maße der Distinktivität oder keyness von Merkmalen 
fiir die kontrastive Analyse von Texten entwickelt und fiir zahlreiche Fragestel- 
lungen eingesetzt. Ein solches, im Bereich der Stilometrie entwickeltes Maß ist 
Zeta, das ursprünglich von John Burrows vorgeschlagen wurde.' Eine Variante 
dieses Maßes wird im vorliegenden Beitrag zunächst genauer beschrieben. Auf 
der Grundlage einer neuen Implementierung des Maßes, die auch eine Reihe von 


1 Vgl. John Burrows: »All the Way Through. Testing for Authorship in Different Frequency 
Strata«, in: Literary and Linguistic Computing 22.1 (2007), S. 27-47. 
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Visualisierungsmöglichkeiten anbietet, wird das Verfahren anschließend am 
Beispiel des Vergleiches der drei dramatischen Gattungen Komödie, Tragödie 
und Tragikomödie illustriert. Ziel des Beitrags ist es, das genauere Verständnis 
und den breiteren Einsatz dieses Maßes zu unterstützen, denn es ist mathema- 
tisch gut nachvollziehbar und fördert inhaltlich gut interpretierbare Ergebnisse 
zu Tage. 


1 Methode: Kontrastive Textanalyse 


Das Grundprinzip der kontrastiven Analyse ist, zunächst die gesamte Daten- 
sammlung nach einem bestimmten Klassifikationskriterium - im vorliegenden 
Kontext ist es die Gattungszugehörigkeit, in anderen Kontexten könnten es Epo- 
chen, Autoren, Textsorten, Register oder Ähnliches mehr sein - in zwei »Partiti- 
onen« genannte Teilmengen aufzuteilen. Man geht häufig explorativ vor und er- 
mittelt, welche Merkmale (Wortformen, Lemmata oder andere Merkmale) für eine 
Partition (der Zielpartition) gegenüber der anderen Partition (der Vergleichspar- 
tition) besonders deutlich überrepräsentiert sind und damit als typisch, charak- 
teristisch oder distinktiv gelten können. Dabei können die beiden Partitionen ent- 
weder gleichrangig sein: beispielsweise könnte man aus einer Sammlung von 
Dramentexten die Tragödien und die Komödien gegenüberstellen. Alternativ 
können die beiden Partitionen in einem hierarchischen Verhältnis zueinander 
stehen: beispielsweise könnte man aus der Sammlung von Dramentexten die Tra- 
södien allen anderen dramatischen Texten der Sammlung gegenüberstellen. 
Diese Methode der kontrastiven Gattungsanalyse hat zur Vorbedingung, 
dass die Zuordnung der Einzeltexte zu den einzelnen Gattungskategorien un- 
problematisch ist. Diese gewichtige Einschränkung bedeutet, dass sich die Me- 
thode insbesondere für die Untersuchung klar umrissener Textklassen eignet. Ist 
diese Vorbedingung erfüllt, erlaubt die Methode die Extraktion verschiedener 
distinktiver Merkmale und damit einen vielfältigen Blick auf die Unterschiede 
zwischen den untersuchten Textklassen. Es ist aber auch ein alternativer Einsatz 
der Methode möglich, bei dem zunächst an einer Teilmenge von Texten, die klar 
zugeordnet werden können - beispielsweise weil sie unstrittig prototypische Bei- 
spiele für eine Textklasse darstellen -, distinktive Merkmale herausgearbeitet 
werden. Diese Merkmale können dann in einem zweiten Schritt für die Einord- 
nung von Texten verwendet werden, für die keine klare Zuordnung bekannt ist. 
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Damit kann dann die Positionierung strittiger Texte auf einem Gradienten zwi- 
schen den prototypisch verstandenen Untergattungen erfolgen,? wobei sich auch 
neue Untergruppen von Texten bilden können, deren Übereinstimmung mit etab- 
lierten Gattungsvorstellungen dann abgeglichen werden kann. 


1.1 Maße für Distinktivität von Merkmalen 


Den zahlreichen Maßen für die Extraktion distinktiver Merkmale aus zwei Text- 
gruppen ist gemeinsam, dass sie von der reinen relativen Häufigkeit der Merk- 
male abstrahieren und aufje unterschiedliche Weise anstreben, die Distinktivität 
der Merkmale herauszuarbeiten. Die grundlegende Annahme ist, dass ein Merk- 
mal nicht nur durch seine reine Häufigkeit in der Zielpartition für diese charak- 
teristisch ist, sondern dass dies auch davon abhängt, wie häufig das Merkmal in 
der Vergleichspartition ist. Diejenigen Merkmale bekommen einen besonders ho- 
hen Wert zugewiesen, die in der Zielpartition sehr häufig und zugleich in der Ver- 
gleichspartition sehr selten sind. Das Phänomen wird in den Sprachwissenschaf- 
ten auch unter dem Begriff der marker words oder key words beziehungsweise, 
abstrakter gefasst, der keyness, verhandelt. Mike Scott definiert key word als »a 
word which occurs with unusual frequency in a given text. This does not mean 
high frequency but unusual frequency, by comparison with a reference corpus of 
some kind«.? 

Eines der einfachsten dieser Maße ist das Verhältnis der relativen Häufigkei- 
ten der Merkmale in zwei Partitionen (ratio of relative frequencies).“ Für jedes 
Merkmal i ermittelt man die relative Häufigkeit rfin der Zielpartition Z und der 
Vergleichspartition V und dividiert den Wert in der Zielpartition durch den Wert 
in der Vergleichspartition. Dies fasst die folgende Formel zusammen: 


2 Vgl. Klaus W. Hempfer: »Some Aspects of a Theory of Genre«, in: Linguistics and Literary Stud- 
ies / Linguistik und Literaturwissenschaft, hg. v. Monika Fludernik und Daniel Jacobs. Berlin 
2014, S. 405-422. 

3 Vgl. Mike Scott: »PC Analysis of Key Words and Key Key Words«, in: System 25.2 (1997), S. 233- 
245. 

4 Siehe Stefan T. Gries: »Useful Statistics for Corpus Linguistics«, in: A Mosaic of Corpus Lin- 
guistics. Selected Approaches, hg. v. Aquilino Sanchez und Moisés Almela. Frankfurt a. M. 2010, 
S. 269-291. Schon 1944 hatte George Yule einen difference coefficient vorgeschlagen, der die glei- 
che Intuition umsetzt, wenn auch in mathematisch leicht unterschiedlicher Weise (vgl. George 
Yule: The Statistical Study of Literary Vocabulary. Cambridge 1944; Alistair Baron, Paul Rayson 
und Dawn Archer: »Word frequency and key word statistics in historical corpus linguistics«, in: 
Anglistik. International Journal of English Studies 20.1 (2009), S. 41-67. 
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rfilz) 


Th TEM 


Sortiert man anschließend die resultierenden Werte absteigend, enthält der An- 
fang der Liste die für die Zielpartition am deutlichsten überrepräsentierten oder 
präferierten Merkmale, das Ende der Liste dagegen die am deutlichsten unterre- 
präsentierten oder vermiedenen Merkmale. In der Mitte der Liste finden sich die- 
jenigen Merkmale, die in beiden Partitionen etwa gleich häufig sind, also weder 
vermieden noch präferiert werden. Einige weitere Maße folgen einem ähnlichen 
Prinzip, auch wenn sie mathematisch ein Wenig komplexer sind: so der tf-idf- 
Score (für term frequency-inverse document frequency), ein im Information Ret- 
rieval weit verbreitetes Maß? sowie zwei inbesondere in den Sprachwissenschaf- 
ten häufig eingesetzte Maße, das X?-Maß (chi-square) und der Ilr (log-likelihood 
ratio®). 

Verfahren aus dieser Gruppe können wertvolle Hinweise geben, jedoch be- 
trachten sie die Partitionen jeweils als Ganzes und vergleichen lediglich zwei Mit- 
telwerte bzw. einen erwarteten und einen beobachteten Wert. Dadurch wird die 
spezifische Verteilung der Werte innerhalb der Texte, die eine Partition bilden, 
nicht berücksichtigt. Solche Maße sind daher zudem nicht in der Lage, die statis- 
tische Signifikanz des gefundenen Unterschiedes zu quantifizieren. Je größer die 
Streuung der Werte aber ist und je weniger symmetrisch sich die Werte um den 
Mittelwert verteilen, desto weniger gut repräsentieren die Mittelwerte (bzw. die 
erwarteten Häufigkeiten) die Verteilung und desto weniger überzeugend ist ihr 
direkter Vergleich. 

Zahlreiche Testverfahren berücksichtigen diese Überlegungen, wenn auch in 
teils recht unterschiedlicher Weise.’ Beim Welchs t-Test fließt die Standardabwei- 
chung und damit ein Maß für die Streuung der Häufigkeiten mit in den Vergleich 


5 Siehe Stephen Robertson: »Understanding Inverse Document Frequency. On Theoretical Ar- 
guments for IDF«, in: Journal of Documentation 60.5 (2004), S. 503-520. 

6 Siehe Paul Rayson und Roger Garside: »Comparing Corpora Using Frequency Profiling«, in: 
Proceedings of the Workshop on Comparing Corpora (Hong Kong, 2000). Shroudsburg 2000, 
S. 1-6, DOI:10.3115/1117729.1117730. 

7 Einen niitzlichen Uberblick bieten Jiirgen Bortz und Christof Schuster: Statistik fiir Human- 
und Sozialwissenschaftler. Berlin 2010, Kap. 5. Fiir eine Untersuchung, in der unterschiedliche 
Distinktivitätsmaße präzise auf ihre statistischen Annahmen und Eigenschaften hin überprüft 
wurden, siehe Jefrey Lijffijt, Terttu Nevalainen, Tanja Säily, Panagiotis Papapetrou, Kai Puola- 
mäki und Heikki Mannila: »Significance Testing of Word Frequencies in Corpora«, in: Digital 
Scholarship in the Humanities 31.2 (2014), S. 374-397. 
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zweier Partitionen ein, allerdings unter der Annahme der Normalverteilung der 
Häufigkeiten, die häufig nicht gegeben ist.* Bei der Berechnung der »spécifici- 
tés«, wie sie im Korpuswerkzeug TXM implementiert ist, wird ein erwarteter Me- 
dian berechnet und statt der t-Verteilung eine hypergeometrische Verteilung an- 
genommen.’ Bei der Verwendung des Wilcoxon Rangsummen-Tests oder des eng 
verwandten Mann-Whitney-U-Test wird ebenfalls die Verteilung der Merkmals- 
häufigkeiten berücksichtigt, und zwar ohne, dass die Annahme einer Normalver- 
teilung der Merkmale nötig ist.’° Ein Vorteil dieser Gruppe von Maßen ist, dass 
die Unterschiedlichkeit der beiden Verteilungen eines Types in der Zielpartition 
und der Vergleichspartition nicht nur durch die Feststellung der sogenannten Ef- 
fektgröße präzisiert, sondern darüber hinaus auch auf ihre statistische Signifi- 
kanz hin getestet wird. 


1.2 Zeta: Mathematische Beschreibung 


Das ursprünglich von John Burrows vorgeschlagene Zeta-Maß berücksichtigt auf 
andere Weise die Streuung der Werte bzw. die mehr oder weniger konsistente 
Verwendung der Types in zwei Partitionen." Dieses Maß ist in unserem Kontext 
besonders attraktiv, weil es mathematisch sehr einfach und als einziges in den 
digitalen Geisteswissenschaften entstanden ist. Das Maß selbst sowie eine Imple- 
mentierung in Python werden im Folgenden genauer beschrieben und im An- 
schluss für die Analyse eines Fallbeispiels genutzt." 


8 Vgl. Michael P. Oakes: Statistics for corpus linguistics. Edinburgh 1998, Kapitel 1.3. 

9 Pierre Lafon: »Sur la variabilité de la fréquence des formes dans un corpus«, in: Mots 1.1 
(1980), S. 127-165, DOI:10.3406/mots.1980.1008. 

10 Ursprünglich Frank Wilcoxon: »Individual comparisons by ranking methods«, in: Biometrics 
Bulletin 1.6 (1945), S. 80-83; Henry B. Mann und Donald R. Whitney: »On a Test of Whether One 
of Two Random Variables Is Stochastically Larger than the Other«, in: The Annals of Mathemat- 
ical Statistics 18.1 (1947), S. 50-60. 

11 Vgl. Burrows: »All the Way Through. Testing for Authorship in Different Frequency Strata«. 
12 Das ursprünglich von John Burrows vorgeschlagene Maß wurde von Hugh Craig weiterent- 
wickelt (vgl. Burrows: »All the Way Through. Testing for Authorship in Different Frequency 
Strata«; vgl. Hugh Craig und Arthur F. Kinney: Shakespeare, Computers, and the Mystery of Au- 
thorship. Cambridge 2009; siehe auch David L. Hoover: »Textual Analysis«, in: Literary Studies 
in a Digital Age, hg. v. Kenneth M. Price und Ray Siemens. New York 2013, https://dls anthol- 
ogy.mla.hcommons.org/textual-analysis/ (20. Januar 2017). Das Maß wurde in mehreren Varian- 
ten von Maciej Eder in stylo für R implementiert (vgl. Maciej Eder, Mike Kestemont und Jan Ry- 
bicki: »Stylometry with R. A Package for Computational Text Analysis«, in: The R Journal 16.1 
(2016), S.1-15, https://journal.r-project.org/archive/accepted/ eder-rybicki-kestemont.pdf 
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Zeta bringt zwei Faktoren ins Spiel: Erstens werden nicht ganze Partitionen 
verglichen, sondern einzelne Texte in den beiden Partitionen. Mehr noch, auch 
die einzelnen Texte werden noch einmal in gleich lange kleinere Segmente (z.B. 
von 2000 oder 5000 Tokens) aufgeteilt. Dies wirkt sich insbesondere dann aus, 
wenn sehr lange Texte wie beispielsweise Romane verglichen werden, ist aber 
auch fiir die deutlich kiirzeren Dramentexte sinnvoll. Zweitens werden nicht die 
Häufigkeiten der Merkmale in den Segmenten erhoben, sondern es wird stattdes- 
sen ermittelt, in wie vielen der Segmente ein Merkmal mindestens einmal vor- 
kommt. In den resultierenden Wert fließt damit vor allem ein, wie konsistent ein 
Merkmal in den beiden Partitionen verwendet wird. 

Für jedes Merkmal i wird demnach erhoben, in wie vielen Segmenten es der 
Zielpartition Z einerseits, der Vergleichspartition V andererseits, vorkommt. Dies 
ist die document frequency (df). Dann werden diese Werte zu Anteilen umgerech- 
net, indem sie durch die Anzahl der Segmente der jeweiligen Partition, n(Z) bzw. 
n(V), geteilt werden. So erhält man die document proportions (dp): 


_ afi) _ afi) 
dp;(Z) = AD bzw. dp;(V) = a 
Man erhält Zeta, indem man vom Anteil des Merkmals in der Zielpartition den 
Anteil des Merkmals in der Vergleichspartition subtrahiert: 


Zeta; = dp;(Z) — dp;(V) 


Die beiden Anteile, die in die Berechnung von Zeta einfließen, liegen naturgemäß 
zwischen 0 und 1. Weil sie durch eine Subtraktion miteinander in Bezug gesetzt 
werden, liegt der resultierende Wert von Zeta zwischen -1 und 1. Der maximale 
Wert von 1 für Merkmale, die für die Zielpartition besonders charakteristisch sind, 
entsteht, wenn das Merkmal in allen Segmenten der Zielpartition vorkommt, also 
sehr konsistent verwendet wird, und zugleich in keinem Segment der Vergleichs- 
partition vorkommt (Zeta = 1-0=1). Der minimale Wert von -1 für Merkmale, die 
äußerst uncharakteristisch für die Zielpartition sind, entsteht, wenn das Merkmal 
in keinem Segment der Zielpartition, aber in allen Segmenten der Vergleichspar- 
tition vorkommt (Zeta = 0 -1 = -1). Merkmale, die in jedem Segment beider Partiti- 
onen mindestens einmal vorkommen, wie viele äußerst verbreitete Funktions- 
wörter oder Merkmale, die in beiden Partitionen im gleichen Anteil von 
Segmenten vorkommen, bekommen einen neutralen Wert von 0 (Zeta=1-1=0 


[20. Januar 2017]). Die hier beschriebene Implementierung entspricht mathematisch der Vari- 
ante, die in stylo als »Craig’s Zeta« bezeichnet wird. 


Zeta für die kontrastive Analyse literarischer Texte — 83 


bzw. allgemein Zeta = x - x = 0). Berechnet man Zeta für alle Merkmale und sor- 
tiert sie absteigend nach dem Wert von Zeta, erhält man zu Beginn der Liste die 
für die Zielpartition charakteristischen Merkmale und am Ende der Liste die für 
die Zielpartition besonders uncharakterisischen bzw. unterrepräsentierten Merk- 
male. 

Das Zeta-Maß ist symmetrisch in dem Sinne, als die für die Zielpartition be- 
sonders uncharakteristischen Merkmale zugleich diejenigen sind, die für die Ver- 
gleichspartition besonders charakteristisch sind. Dies ist insbesondere dann 
nützlich, wenn Ziel- und Vergleichspartition auf der gleichen Abstraktionsebene 
angesiedelt sind, beispielsweise bei einem Vergleich der Romane zweier Autoren 
oder der Gegenüberstellung von Tragödien und Komödien. Wenn die Zielparti- 
tion eine sehr präzise definierte Gruppe von Texten enthält, die Vergleichsparti- 
tion hingegen eine breite Auswahl verschiedener Textsorten versammelt und als 
Referenzkorpus fungiert, sind die uncharakteristischen Merkmale deutlich weni- 
ger konturiert und interpretierbar als die charakteristischen Merkmale der Ziel- 
partition. 

Das Verfahren hat dabei einige Effekte auf die resultierenden Wortlisten, die 
insofern als erwünscht gelten können, als sie unserer Intuition von »Distinktivi- 
tät« entgegenkommen. Weil nur das Vorkommen eines Merkmals (nicht aber 
seine Anzahl) in einem Textsegment erhoben wird, können Merkmale, die nurin 
wenigen Texten oder Textsegmenten vorkommen, dort aber extrem häufig sind, 
keinen hohen Zeta-Wert erreichen. Das hat die Folge, dass beispielsweise die Na- 
men von Figuren oder Orten, die jeweils in nur einem Text sehr häufig vorkom- 
men, nicht als distinktiv für eine ganze Partition erscheinen. Aus demselben 
Grund können insgesamt sehr häufige Merkmale, die zwar unterschiedliche rela- 
tive Häufigkeiten haben, aber letztlich doch in fast jedem Textsegment zumindest 
einmal vorkommen, ebenfalls keine extremen Zeta-Werte bekommen. Dies hat 
den Effekt, dass die weit verbreiteten Funktionswörter ebenfalls nicht als distink- 
tive Merkmale erscheinen. Damit stellt Zeta die Inhaltswörter von insgesamt mitt- 
lerer Häufigkeit in den Vordergrund. Diese spezifischen Eigenschaften von Zeta 
müssen allerdings erkannt werden, wenn Zeta sinnvoll eingesetzt werden soll. 

Das Verhalten des Zeta-Verfahrens ist von drei Parametern beeinflusst. Ers- 
tens die Länge der Segmente: je kürzer die Segmente sind, desto feiner wird die 
Verteilung der Merkmale betrachtet, desto wahrscheinlicher wird es aber auch, 
dass zahlreiche Merkmale in vielen Segmenten nicht vorkommen. Zweitens die 
minimale Häufigkeit, dieein Merkmal haben muss, um überhaupt berücksichtigt 
zu werden: hier können Merkmale ausgeschlossen werden, die zwar aus dem ei- 
nen oder anderen Grund nur in einer Partition vorkommen, aber insgesamt den- 
noch sehr selten sind und damit kaum wirklich charakteristisch sein können. 
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Dieser Parameter kann auch dazu genutzt werden, um bei größeren Textsamm- 
lungen die Berechnung zu beschleunigen, indem beispielsweise alle hapax lego- 
mena (Merkmale, die nur ein einziges Mal vorkommen) von vorneherein ausge- 
schlossen werden. Und drittens ist von den Forschenden zu entscheiden, bis zu 
welchem Wert von Zeta von einer nennenswerten Distinktivität ausgegangen 
werden soll. Das Maß hat weder einen intrinsischen Schwellenwert, noch ist ein 
Signifikanztest Teil des Verfahrens. Die beobachteten Extremwerte in einem kon- 
kreten Anwendungsfall können zudem deutlich unter 1 bzw. über -1 liegen. Auch 
ist die Spanne der Werte nur bei anderweitig vergleichbaren Parametern und Ei- 
genschaften der Textsammlungen ein verlässlicher Hinweis auf das Ausmaß der 
Unterschiedlichkeit der Texte in Zielpartition und Vergleichspartition. 


1.3 Zeta: Implementierung in Python 


Die Ausgangsbasis für die Berechnungen ist in der für den vorliegenden Beitrag 

entwickelten Implementierung die Textsammlung, die in Form von einer Textda- 

tei pro Text sowie einer Metadatentabelle mit der Zuordnung jedes Stücks in eine 

Gruppe (Autoren, Gattungen, Epochen, etc.) vorliegt. Die Implementierung bein- 

haltet dann die folgenden Arbeitsschritte: 

1. Alle Texte werden zunächst vorbereitet, d.h. tokenisiert, lemmatisiert und 
nach Wortarten ausgezeichnet (hierfür wird der TreeTagger eingesetzt). Je 
nach gewähltem Zuordnungskriterium wird jeweils eine Liste der Texte er- 
stellt, die der Zielpartition respektive der Vergleichspartition zugeordnet 
sind. 

2. Es findet eine Auswahl der zu berücksichtigenden Merkmale statt: auf 
Grundlage der Wortlänge, der Worthäufigkeit, der Wortart und/oder durch 
eine Stoplist. Alle Texte einer Partition werden in Segmente einer festgeleg- 
ten Länge geteilt. 

3. Wie bereits beschrieben wird erhoben, in wie vielen Segmenten der Zielpar- 
tition und der Vergleichspartition jedes Merkmal vorkommt; diese Anzahl 
wird zu Anteilen in Bezug auf die jeweilige Partition umgerechnet. Auf dieser 
Grundlage wird der Wert von Zeta für jedes Merkmal berechnet. 


13 Helmut Schmid: »Probabilistic Part-of-Speech Tagging Using Decision Trees«, in: Proceed- 
ings of International Conference on New Methods in Language Processing. Manchester 1994, n. p. 
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4. Als Ergebnis werden eine Tabelle mit den Rohdaten sowie mehrere interak- 
tive Visualisierungen der Merkmale mit den am deutlichsten distinktiven 
bzw. nicht-distinktiven Werten erstellt. 


Gegenüber anderen Implementierungen von Zeta — derjenigen von Maciej Eder 
in stylo fiir R und derjenigen von David Hoover als Excel-Makro - zeichnet sich 
die vorliegende Implementierung in Python dadurch aus, dass zusätzlich zu den 
üblichen Parametern wie der Segmentlänge auch die Möglichkeit gegeben ist, 
verschiedene Präprozessierungsschritte direkt in den Prozess einzubinden, was 
eine flexible Definition der zu verwendenden Merkmale ermöglicht. Außerdem 
berücksichtigt die Implementierung eine Metadaten-Tabelle, in der zu jedem Do- 
kument verschiedene Klassenzugehörigkeiten festgehalten werden können. Die 
jeweils zu vergleichenden Partitionen innerhalb einer größeren Textsammlung 
werden auf Grundlage der Metadaten dynamisch generiert, was große Flexibilität 
bietet. Derzeit in Entwicklung befinden sich Erweiterungen, die einen Konfidenz- 
intervall der zu erwartenden Zeta-Werte ermitteln sowie eine parametrisierte Be- 
rücksichtigung der relativen Häufigkeiten bei der Berechnung der Zeta-Werte." 


2 Fallstudie zum französischen Theater 


In den folgenden Abschnitten wird das Zeta-Maß für die kontrastive Analyse der 
drei dramatischen Gattungen Komödie, Tragödie und Tragikomödie eingesetzt. 
Ziel ist es, die Funktionsweise des Zeta-Maßes zu illustrieren und seine Nützlich- 
keit für kontrastive Analysen literarischer Texte aufzuzeigen. Dabei wird auf 
Grundlage einer Textsammlung von 391 Dramen der französischen Klassik und 
Aufklärung auf einer stilistisch-lexikalischen Ebene der Unterscheidung von Tra- 
gödie, Komödie und Tragikomödie nachgegangen.” 


14 Die Implementierung erfolgte in Python 3 und ist in einem GitHub-Repository der CLiGS- 
Gruppe frei verfügbar: https://github.com/cligs/pyzeta (DOI:10.5281/zenodo.208178). 

15 Die hier verwendeten Texte stammen aus der Sammlung Theätre classique, die von Paul 
Fiévre herausgegeben wird (vgl. Paul Fiévre: Theätre classique. 2007, http://www.theatre-clas- 
sique.fr [20. Januar 2017]) und derzeit gut 1000 Theaterstiicke aus der Zeit von 1600 bis 1810 um- 
fasst. Hier wurden nur Dramentexte aus der Zeit 1630-1780 und mit einer Lange von 3 oder 5 
Akten berücksichtigt: 189 Komödien, 150 Tragödien und 52 Tragikomödien, also 391 Texte. Für 
die hier durchgeführten Analysen wurde ausschließlich der Sprechertext unter Ausschluss von 
Vorworten, Anmerkungen, Bühnenanweisungen oder Sprechernamen extrahiert. 
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Die normative Poetik der französischen Klassik betont die klare Unterschei- 
dung der dramatischen Untergattungen, insbesondere zwischen Komédie und 
Tragödie, lässt zugleich aber zumindest zu Beginn ihrer Wirkmächtigkeit die 
Möglichkeit zu, dass die Tragikomödie eine solche klare Unterscheidung unter- 
läuft. Vor diesem Hintergrund, und da in vorigen Arbeiten zum gleichen Gegen- 
standsbereich bereits zahlreiche Unterschiede zwischen Tragödie und Komödie 
auf der Ebene der Funktionswörter, der Topics, der Textstrukturierung und der 
Figurenanzahl herausgearbeitet werden konnten, ist es das Ziel des vorliegenden 
Beitrags, dies nun auch auf der lexikalischen Ebene zu zeigen.” Darüber hinaus 
soll aber auch gezeigt werden, wie sich die Tragikomödie zwischen Komödie und 
Tragödie verorten lässt. Hierfür werden die distinktiven Merkmale dieser drei 
dramatischen Untergattungen herausgearbeitet und insbesondere die Verortung 
der Tragikomödie im Gattungssystem datenbasiert genauer in den Blick genom- 
men. 


2.1 Gegenüberstellung von Tragödie und Komödie 


In einem ersten Schritt werden Ergebnisse aus der Gegenüberstellung von Tragö- 
die und Komödie präsentiert, für die eine sehr klare Differenzierung zu erwarten 
ist. Zunächst sei aber ein für das Verständnis des Zeta-Maßes aufschlussreicher 
Scatterplot (Abb. 1) gezeigt, in dem die Merkmale mit ihren Anteilen in den Ko- 
mödien einerseits, den Tragödien andererseits aufgetragen sind. 


16 Für eine detaillierte Beschreibung der formalen Poetik der Gattung, siehe Jacques Scherer: 
La dramaturgie classique en France. Paris 2001; für einen Überblick über die literarische Produk- 
tion der Zeit, siehe Charles Mazouer: Le theätre francais de l’äge classique, II: L’ apogée du clas- 
sicisme. Paris 2010. 

17 Christof Schöch: »Corneille, Moliére et les autres. Stilometrische Analysen zu Autorschaft 
und Gattungszugehörigkeit im französischen Theater der Klassik«, in: Literaturwissenschaft im 
digitalen Medienwandel, hg.v. Christof Schöch und Lars Schneider. http://web.fu-ber 
lin.de/phin/beiheft7/b7t08.pdf. Beihefte von Philologie im Netz 7 (2014) (20. Januar 2017); Allen 
Riddell und Christof Schöch: »Progress through Regression«, in: Digital Humanities 2014: Con- 
ference Abstracts. Lausanne, http://dharchive.org/paper/DH2014/Paper-60.xml (20. Ja- 
nuar 2017); Christof Schöch: »Topic Modeling Genre. An Exploration ofFrench Classical and En- 
lightenment Drama«, in: Digital Humanities Quarterly 11.2 (2017), http://www.digitalhumani 
ties.org/dhq/vol/11/2/000291/000291.html (10. Juni 2017). 

18 Zu Fragen der Definition und Geschichte dieser Gattung, siehe Frank H. Ristine: English Tra- 
gicomedy. Its Origin and History. New York 1963. 


Zeta für die kontrastive Analyse literarischer Texte — 87 


Verteilung der Type-Anteile 


Anteil der Types in tragedie 


Anteil der Types in comedie 


Abb. 1: Scatterplot der Verteilung der Lemmata-Anteile in Komödien und Tragödien 


In diesem Scatterplot ist jeder Punkt ein Lemma. Lemmata, die einen besonders 
hohen oder niedrigen Zeta-Wert haben (hier mit einen arbiträren cut-off von +/- 
0.40), sind farbig hervorgehoben. Ein Zeta-Wert von 0 entsteht, wenn ein Lemma 
in beiden Partitionen den gleichen Anteil hat, was für alle Kombinationen von 
Anteilen zutrifft, die sich auf der mittleren Diagonale befinden. Man sieht, dass 
ein substantieller Teil der Lemmata wegen ihrer ähnlichen Anteile in beiden Par- 
titionen einen Zeta-Wert um O haben. Zudem wird deutlich, dass höhere Zeta- 
Werte dann zustande kommen, wenn die Anteile des Lemmas in den beiden Par- 
titionen sich deutlich unterscheiden. Je weiter ein Punkt von der 0-Diagonalen 
entfernt ist, desto extremer ist der resultierende Zeta-Wert. Zwei Lemmata kön- 
nen auch dann einen vergleichbaren Zeta-Wert haben, wenn ihre Anteile sich auf 
unterschiedlichen Niveaus bewegen: Ein Lemma mit Anteilen von 0.68 und 0.08 
in Tragödien respektive Komödien erhält den gleichen Zeta-Wert wie ein insge- 
samt eher häufiges Lemma mit den Anteilen 0.87 und 0.27, nämlich 0.60. Dies ist 
kein zweifelsfrei erwünschter Effekt der Berechnungsweise. 
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Welche inhaltlichen Ergebnisse sind nun aber zu konstatieren? Bei Lemma- 
tisierung und Berücksichtigung aller Types ergeben sich fiir die Gegenüberstel- 
lung von Komödien und Tragödien sehr klare und interpretierbare Ergebnisse 
(Abb. 2). 


Kontrastive Analyse mit Zeta 
(tragedie vs. comedie) 


pauvre 


loire: 


ennem 
seigneur 
Haine 


! tröne 


25 Worte pro Partition 


Zeta-Score 


Abb. 2: Lemmata mit den extremsten Zeta-Scores für Tragödie und Komödie 


Auf Seiten der für die Tragödie distinktiven Lemmata sind unter den 20 am stärks- 
ten distinktiven Begriffen folgende Einordnungen möglich. Die Begriffe seigneur, 
roi und prince beziehen sich auf das Figureninventar der Tragödie, das sich durch 
einen hohen Stand auszeichnet. Auch die Begriffe trône und empire sowie indi- 
rekt peuple beziehen sich klar auf diesen Kontext königlicher Herrschaft. Die Be- 
griffe gloire und vertu beziehen sich auf tragische Leitwerte, die zu den wesentli- 
chen Motoren zahlreicher tragischer Konflikte gehören. Die Begriffe haine, fureur, 
horreur, malheur und pleurs beziehen sich auf tragische Leit-Emotionen, die sich 
insbesondere dadurch auszeichnen, dass sie fast alle intensive und negative 
Emotionen sind. Bleiben hier noch Begriffe wie sang (mit dem deutlichsten Wert 
überhaupt), crime und bras, die man dem Wortfeld des physischen Konflikts zu- 
ordnen kann. 
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Auf Seiten der Komödie ergibt sich ein völlig anderes Bild: Wiederum bezie- 
hen sich mehrere Begriffe auf das Figureninventar, es handelt sich nun aber um 
den bürgerlichen monsieur (direkt dem adeligen seigneur der Tragödie gegen- 
übergestellt) sowie um gens, homme und personne. Auffallend sind außerdem die 
Interjektionen (oh, voilä). Auch diable ist in diesem Sinne verwendbar (»Au di- 
able!«) und dürfte sich auf diese Weise erklären. 

Nimmt man eine Selektion der Merkmale in Abhängigkeit der Wortarten vor, 
kann man den Blick auf die distinktiven Substantive, Verben oder Adjektive je- 
weils für sich genommen lenken. Ein solches Vorgehen bestätigt und konkreti- 
siert die Ergebnisse aus den Überblicksstudien im Wesentlichen. Blicken wir ein- 
mal nur auf die Adjektive (Abb. 3). 


Kontrastive Analyse mit Zeta 
(tragedie vs. comedie) 


25 Worte pro Partition 


-0.8 -0.6 -0.4 -0.2 0 0.2 0.4 0.6 0.8 


Zeta-Score 


Abb. 3: Adjektive mit den extremsten Z-Scores für Komödien und Tragödien 


Die Gegenüberstellung der Adjektive, die jeweils für Tragödien und Komödien 
distinktiv sind, zeigt, dass hier die großen, edlen, extremen Emotionen der Tra- 
gödie einerseits (implacable, auguste, magnanime, victorieux, triomphant, 
intrépide, ambitieux, inévitable, altier, immortel), die einfachen, lustigen Qualitä- 


90 — Christof Schöch 


ten der Komödie andererseits (joli, sot, coquin, vilain, impertinent, gai) herausge- 
stellt werden, aber auch Aspekte der klassischen honnéteté eine Rolle spielen (ga- 
lant, honnéte, plaisant). Zugleich ist erkennbar, dass der Abfall der Zeta-Werte 
naturgemäß viel steiler ist, als wenn alle Wortarten berücksichtigt werden. 

Zusammenfassend lässt sich konstatieren, dass die kontrastive Analyse von 
Tragödien und Komödien im Wesentlichen bekanntes Wissen über das Verhält- 
nis der beiden Gattungen repliziert. Damit ist immerhin der Nachweis geleistet, 
dass das Verfahren in sinnvoller Weise funktioniert. Mehr noch, aus dem statis- 
tisch bedingten Fokus auf die Inhaltswörter (siehe Abschnitt 1.2) ergibt sich die 
hohe inhaltliche Interpretierbarkeit der Ergebnisse, die das Zeta-Maß attraktiv 
macht. 


2.2 Kontrastive Analyse der Tragikomödie 


Der Vergleich der Tragikomödie mit der Tragödie einerseits, der Komödie ande- 
rerseits, verspricht Ergebnisse, die nicht unmittelbar auf bekanntes Wissen zu- 
rückführbar sind. Sie erlauben insbesondere auch Rückschlüsse auf die Frage, 
welcher der beiden Untergattungen die Tragikomödie auf dieser inhaltlich-lexi- 
kalischen Ebene ähnlicher ist. 

Hier manifestiert sich nun deutlich die (einleuchtende und gewünschte) Ei- 
genschaft Zetas — wie im Übrigen aller Distinktivitätsmaße -, dass die charakte- 
ristischen Merkmale für die Zielpartition (hier: die Tragikomödien) stark davon 
abhängen, welche Texte in der Vergleichspartition vorhanden sind (hier: Komö- 
dien oder Tragödien). Die Gegenüberstellung der Tragikomödie mit der Komödie 
bringt Begriffe zu Tage, die sich in großen Teilen mit den oben ermittelten dis- 
tinktiven Begriffen der Tragödie überschneiden: roi, prince, crime, sang, gloire, 
dieux, bras, fureur sind darunter (und auch couronne passt dazu). Offenbar spielt 
aber die reine physische Auseinandersetzung oder zumindest der möglicher- 
weise auch symbolische Machtkampf in der Tragikomödie eine noch größere 
Rolle als in der Tragödie: trépas, mort, vainqueur, ennemi, victoire, puissant, 
puissance kommen hier hinzu und setzen einen anderen Akzent als in der Tragö- 
die. Die Gegenüberstellung der Tragikomödie mit der Tragödie bringt ebenfalls 
Überschneidungen mit den oben ermittelten distinktiven Begriffen der Komödie 
ans Licht, allerdings sind es deutlich weniger: bon, fort, chose. Die Figurenbe- 
zeichnungen treten hier (anders als bei der Komödie) nicht als distinktiv zu Tage, 
was auf ein ähnliches Figureninventar von Tragikomödie und Tragödie hinweist. 
Erneut finden wir hier eine Interjektion (ha), allerdings nicht dieselbe wie in der 
Komödie. Die Tragikomödie ähnelt also in Bezug auf das Inventar der distinkti- 
ven lexikalischen Merkmale der Tragödie deutlich mehr als der Komödie. 
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Eine weitere Versuchsanordnung geht von den jeweils 25 am deutlichsten 
distinktiven Types von Tragödie und Komödie aus. Dann wird für jedes Stück in 
der Textsammlung erhoben, in welchem Anteil der Textsegmente dieses Stücks 
die insgesamt 50 Types vorkommen. Mit diesen Daten wird eine Hauptkompo- 
nentenanalyse durchgeführt, die wie zu erwarten eine klare Trennung zwischen 
Tragödien und Komödien zeigt, aber auch den spezifischen Ort der Tragikomö- 
dien: nahe bei den Tragödien (Abb. 4). 


PCA mit distinktiven Features 


PC2 (4.02%) 


PC1 (55.57%) 


Abb. 4: Vergleich von Komödie (rot), Tragödie (blau) und Tragikomödie (grün) 


Die erste Hauptkomponente (PC1) versammelt über 55% der Varianzin den Daten 
und trennt klar zwischen Tragödien und Komödien. Die Tragikomödien liegen 
zwar insgesamt zwischen Tragödie und Komödie, ein großer Teil der Tragikomö- 
dien aber liegt wesentlich näher bei den Tragödien als bei den Komödien. Die drei 
Verteilungen der Werte auf der ersten Hauptkomponente unterscheiden sich sta- 
tistisch hochsignifikant voneinander (Mann-Whitney-U-Test). Hier nicht sichtbar, 
setzt sich die Tragikomödie in der dritten Hauptkomponente leicht von Komödie 
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und Tragödie gleichermaßen ab. Dennoch kann festgehalten werden, dass ein 
sroßer Teil der Tragikomödien den Tragödien sehr viel mehr ähnelt als den Ko- 
mödien. 


3 Fazit 


Auf methodischer Ebene lässt sich konstatieren, dass das Zeta-Maß für distink- 
tive Merkmale trotz seiner mathematischen Einfachheit die Information über die 
mehr oder weniger konsistente Verwendung von Wörtern in sinnvoller Weise für 
eine kontrastive Analyse von Texten einsetzt. Allerdings steht eine systematische 
Überprüfung der statistischen Eigenschaften von Zeta, wie sie von Lijffijt und 
Kollegen für einige andere Distinktivitätsmaße durchgeführt wurde, bislang 
noch aus.” Dennoch kann dazu ermuntert werden, die nun für R und Python vor- 
handenen Implementierungen von Zeta für sprach- und literaturwissenschaftli- 
che Untersuchungen zu nutzen und die Ergebnisse mit anderen Maßen, insbe- 
sondere den von Lijffijt empfohlenen Welchs t-Test und dem Wilcoxon Rang- 
summentest, zu vergleichen. 

Auf die Beispielanalyse bezogen kann man feststellen, dass sich mit Zeta Un- 
terschiede zwischen Tragödie und Komödie bezüglich ihrer lexikalischen Präfe- 
renzen herausarbeiten lassen, die unseren Erwartungen zu diesen beiden Gattun- 
gen entsprechen. Außerdem zeigt sich recht deutlich, dass sich Tragikomödie 
und Tragödie bezüglich ihrer lexikalischen Präferenzen deutlich näher stehen als 
Tragikomödie und Komödie, was die These von der Tragikomödie als Mischform 
wiederlest und vielmehr zeigt, dass die untersuchten Tragikomödien sich besser 
als eine besondere Form der Tragödie beschreiben lassen. Damit erscheint das 
Verfahren geeignet, einen Beitrag zur Gattungsgeschichte des französischen Dra- 
mas zu leisten. 


Hinweise 


Die für diese Studie verwendeten Daten und alle Zwischenergebnisse und (inter- 
aktiven) Visualisierungen sind auf Github verfügbar, unter https://github.com/ 
cligs/projects (Ordner: 2016/zeta-tc; DOI:10.5281/zenodo.208180). Die Arbeit an 
diesem Beitrag wurde vom BMBF unter dem FKZ 01UG1508 gefördert. 


19 Lijffijt et al.: »Significance Testing of Word Frequencies«, S. 374-397. 
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Florian Barth 

Zwischen Elisabeth Hauptmann und Bertolt 
Brecht: Stilometrische Studien einer 
Zusammenarbeit? 


Abstract: In literary studies, the collaboration of Elisabeth Hauptmann and 
Bertolt Brecht has been discussed intensively since Hauptmann contributed to 
Brecht’s major plays and prose of the 1920s. Stylometric methods offer a new per- 
spective on Hauptmann’s influence as one can verify and expand the existing 
knowledge about her share in Brecht’s works. 

The initial part describes the complexity of the corpus’ textual basis and 
gives first insights about the plays written collaboratively. Alongside several ex- 
isting research hypotheses, the article focusses on the analysis of Brecht’s short 
stories and the specific collaborative work method that he used to have with sev- 
eral of his supporters. Against this backdrop, stylometric approaches like Zeta 
can shed light on creative parts of the shared writing process of Hauptmann and 
Brecht. 


1 Einleitung 


Die Stilometrie ist in ihrer Entwicklung gepragt durch die Untersuchung von Au- 
torstilistik. Bereits Ende des 19. Jahrhunderts versucht der Physiker Thomas Men- 
denhall durch die Quantifizierung der Wortlänge bestimmte Texte hinsichtlich 
ihrer Autorschaft zu unterscheiden.’ Doch erst die Identifizierung der Autorschaft 
von zwölf strittigen Artikeln aus den amerikanischen Federalist Papers im Jahr 
1964 durch Mostellar und Wallace verschafft der Stilometrie zum wissenschaftli- 


1 Der Beitrag basiert auf der gleichnamigen Bachelor-Arbeit, die 2015 am Peter-Szondi-Institut 
für Allgemeine und Vergleichende Literaturwissenschaft der Freien Universität Berlin angenom- 
men und im selben Jahr mit dem DH-Nachwuchspreis des Interdisziplinären Forschungsver- 
bunds Digital Humanities in Berlin (if|DH|b) ausgezeichnet wurde. 

2 David I. Holmes: »Authorship Attribution«, in: Computers and the Humanities 28.2 (1994), 
S. 87-106, hier S. 88. Die Vermutung, Autoren durch das Zählen der Wortlänge zu unterschei- 
den, wird bereits 1851 von Augustus de Morgan geäußert und von Mendenhall aufgegriffen. 


© 2018 Florian Barth, publiziert von De Gruyter. 

CJB Dieses Werk ist lizenziert unter der CreativeCommons Attribution-NonCommercial-NoDerivatives 
4.0 International License. 

https: //doi.org/10.1515/9783110523300-005 
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chen Durchbruch; bereits hier wurden hochfrequente Funktionswörter als Dis- 
kriminatoren eingesetzt.? Etablieren kann sich das Verfahren in der Literaturwis- 
senschaft durch die Kombination jener »most frequent words« (im Folgenden 
auch mit MFW abgekürzt) mit erstmals von John F. Burrows angewandten mul- 
tivariaten statistischen Verfahren wie Cluster- oder Hauptkomponentenanalysen 
sowie dem Distanzmaß »Delta«.“ Diese Methoden richten sich an einer verglei- 
chenden Fragestellung aus, für die ein geeignet zusammengesetztes Textkorpus 
benötigt wird.’ 

Der vorliegende Beitrag soll durch einen stilometrischen Vergleich der Werke 
Elisabeth Hauptmanns und Bertolt Brechts eine Analyse der Autorschaft jener 
Texte ermöglichen, bei denen die beiden zusammengearbeitet haben. Zwischen 
1924 und 1932 entstehen unter Hauptmanns Mitwirkung neun Theaterstücke 
Brechts, u. a. die Dreigroschenoper und Aufstieg und Fall der Stadt Mahagonny,‘ 
zudem wird gestützt auf Hauptmanns Tagebuch und spätere Aussagen bei 46 


3 Holmes, David I.: »The Evolution of Stylometry in Humanities Scholarship«, in: Literary and 
Linguistic Computing 13.3 (1998), S. 111-117, hier S. 112. 

4 Ebd., S. 113; multivariate Verfahren verwendet Burrows ab Ende der 1980er Jahre in einer 
Reihe von Beiträgen: John F. Burrows: »Word Patterns and Story Shapes. The Statistical Analysis 
of Narrative Style«, in Literary and Linguistic Computing 2.2 (1987), S. 61-70; John F. Burrows: 
»»An ocean where each kind ...<. Statistical analysis and some major determinants of literary 
style«, in: Computers and the Humanities 23.4 (1989), S. 309-321; John F. Burrows: »Not Unless 
You Ask Nicely. The Interpretative Nexus Between Analysis and Information«, in: Literary and 
Linguistic Computing 7.2 (1992), S. 91-109; Das Distanzmaß »Delta« wurde erstmals besprochen 
in John F. Burrows: »»Delta«. A Measure of Stylistic Difference and a Guide to Likely Authorship«, 
in: Literary and Linguistics Computing 17.3 (2002), S. 267-287; Eine ausführliche Diskussion zur 
Wirkungsweise und Weiterentwicklung von »Delta« findet sich bei Fotis Jannidis: »Der Autor 
ganz nah. Autorstil in Stilistik und Stilometrie«, in: Theorien und Praktiken der Autorschaft, hg. 
v. Matthias Schaffrick und Marcus Willand. Berlin, Boston 2012, S. 169-195, hier S. 183-189. 

5 Matthias Schaffrick und Marcus Willand: »Autorschaft im 21. Jahrhundert«, in: Theorien und 
Praktiken der Autorschaft, hg. v. Matthias Schaffrick und Marcus Willand. Berlin, Boston 2012, S. 
3-148, hier S. 29; Christof Schöch: »Aufbau von Datensammlungen« sowie »Quantitative Ana- 
lyse«, in Digital Humanities. Eine Einführung, hg. v. Fotis Jannidis, Hubertus Kohle und Malte 
Rehbein. Stuttgart 2017, S. 223-233 sowie 279-298, hier S. 223, 293; Schöch verwendet hier den 
Begriff der »Datensammlung« in Abgrenzung zum spezifischen, in der Linguistik gebräuchli- 
chen »Korpus«, welches häufig für eine bestimmte Domäne repräsentativ und mit linguistischen 
Annotationen angereichert ist. 

6 Brecht nennt Elisabeth Hauptmann explizit als Co-Autorin dieser neun Stücke (siehe auch 
Hiltrud Häntzschel: Brechts Frauen. Reinbek bei Hamburg 2002, S. 160); Eine Gesamtübersicht 
der Stücke und aller weiteren digital untersuchten Werke findet sich in der Reihenfolge ihrer 
Verwendung im Anhang dieses Beitrages. Alle Texte wurden vom Verfasser digitalisiert. 
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weiteren Erzählungen und Kurzgeschichten aus diesem Zeitraum eine enge Zu- 
sammenarbeit angenommen.’ Das Ausmaß von Hauptmanns Anteil ist in der 
Brecht-Forschung jedoch umstritten: Während John Fuegi in maximaler Polemik 
postuliert, Brecht sei ohne seine Mitarbeiterin kaum dazu in der Lage gewesen, 
»irgend etwas zu Ende bringen, das länger war als zwanzig Zeilen«,° betont Jan 
Knopf die Eigenständigkeit sowohl von Brechts Arbeiten fürs Theater als auch 
seiner Kurzprosa.? 

Die folgende Untersuchung dieses Streitfalls bespricht zunächst die gemein- 
sam bearbeiten Dramen, richtet den Fokus aber insbesondere auf die zwischen 
1924 und 1933 entstandenen Erzählungen. Vor dem Hintergrund der kollektiven 
Arbeitsweise, die Brecht mit seinen Mitarbeiterinnen und Mitarbeitern pflegte, 
wird dabei auch thematisiert, inwieweit stilometrische Verfahren geeignet sind, 
um die kreativen Anteile an den jeweiligen Werken zu modellieren. 


2 Korpuszusammensetzung und Textgrundlage 


Daes sich bei multivariaten Verfahren wie Cluster- oder Hauptkomponentenana- 
lysen um eine »unüberwachte« Klassifizierung handelt, die ohne vorgegebene 
Zielkategorien auskommt, ist für valide Ergebnisse eine ausgewogene Zusam- 
mensetzung des Korpus nötig, also ein stimmiges Verhältnis zwischen Ver- 
gleichstexten und Untersuchungsgegenstand. Drei Gruppen von Texten werden 
in dieser Arbeit miteinander verglichen: 1. die Schriften Hauptmanns, 2. eine Aus- 
wahl aus Brechts umfangreichem Werk und 3. jene Texte »dazwischen« - die Ar- 
beiten Brechts, an denen Hauptmann beteiligt war. Allerdings besteht hier ein 
deutliches Ungleichgewicht, denn im Gegensatz zu den beiden letztgenannten 
Textgruppen liegen von Hauptmann lediglich sieben in den 1920er Jahren publi- 


7 Siehe dazu Sabine Kebir: Ich fragte nicht nach meinem Anteil. Elisabeth Hauptmanns Arbeit mit 
Bertolt Brecht. Berlin 2006, S. 94, 95; Jan Knopf führt neben den Kurzgeschichten auch die 17 
Geschichten vom Herm Keuner an, die in jener Zeit entstehen, vgl. Jan Knopf: Brecht-Handbuch. 
Prosa, Filme, Drehbücher. Stuttgart, Weimar 2002 (Band 3), S. 60; Diese sind im Umfang verhält- 
nismäßig gering und ihre Autorschaft wird Brecht zugeschrieben, etwa bei John Willett: »Bacon 
ohne Shakespeare? The Problem of Mitarbeit«, in: The Brecht Yearbook. Brecht, Woman and Pol- 
itics, hg v. John Fuegi, Gisela Bahr und John Willett. Detroit, München 1985 (Volume 12), S. 121- 
137, hier S. 128. Deshalb werden sie in der Untersuchung außer Acht gelassen. 

8 John Fuegi: Brecht & Co. Biographie. Hamburg 1997, S. 207. 

9 Jan Knopf: »Sex for text«, in: Konkret 10 (1994), S. 53-55, hier S. 54; Knopf: Brecht-Handbuch. 
Prosa, Filme, Drehbücher, S. 60. 
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zierte Kurzgeschichten, einige posthum veröffentlichte Erzählungen sowie un- 
veröffentlichte Prosafragmente vor, die im Durchschnitt nicht länger als 3.000 
Wörter sind. Maciej Eder zeigt in einer Studie zur Autorschaftsattribution in ver- 
schiedenen Sprachen, dass eine Mindestlänge von 5.000 Wörtern bei Textproben 
nicht unterschritten werden sollte und dass sich ab 10.000 Wörtern insbesondere 
im Deutschen die Erfolgsquote bei etwa 80 Prozent stabilisiert.” Deshalb werden 
die Kurzgeschichten im Folgenden auf einen Datensatz mit zwei Textproben von 
je 10.000 Wörtern aufgeteilt (»H_Prosa 24-32«). Ein zweiter kleinerer Datensatz 
(»H_Archiv«) setzt sich aus den in der Akademie der Künste sowie dem Brecht- 
Archiv lagernden Fragmenten und Erlebnisschilderungen Hauptmanns zusam- 
men, die Mitte der 1930er Jahre in den USA entstanden. 

Neben dem Verhältnis der Vergleichstexte ist beim Korpusaufbau zu beach- 
ten, dass die stilometrische Klassifizierung nicht auf Autorschaft beschränkt 
bleibt, sondern sich ebenfalls auf Faktoren wie die Gattungs- oder Epochenzuge- 
hörigkeit beziehen kann." Diese übereinanderliegenden und gleichzeitig wirken- 
den Faktoren werden auch als »Signale« bezeichnet und können nur kontrolliert 
werden, wenn im Korpus möglichst alle außer dem untersuchten Signal konstant 
gehalten werden.” Bei der Untersuchung von Hauptmanns und Brechts Zusam- 
menarbeit sollte die Textzusammenstellung folglich entweder aus Prosa oder 
Theaterstücken bestehen, um den Einfluss von Autorschaft und Gattung nicht zu 
vermischen. Neben Hauptmanns Kurzgeschichten liegt von ihr jedoch nur das 
Theaterstück Happy End vor, zu dem Brecht die Songs und Grundzüge der Fabel 
beisteuerte.” Im gemeinsamen Probenprozess mag Brechts Einfluss sogar noch 
umfangreicher gewesen sein, sodass etwa John Willett von einer kollektiven Pro- 
duktion ausgeht.“ Daher eignet sich Happy End kaum als Referenz für Haupt- 
manns dramatischen Stil in einer Untersuchung, die Erkenntnisse über die neun 
gemeinsam bearbeiteten Theaterstücke anstrebt. 


10 Maciej Eder: »Does size matter? Authorship attribution, small samples, big problem«, in: Lit- 
erary and Linguistics Computing 30.2 (2015), S. 167-182. 

11 Christof Schöch: »Corneille, Moliere et les autres. Stilometrische Analysen zu Autorschaft 
und Gattungszugehörigkeit im französischen Theater der Klassik«, in: Philologie im Netz, Beiheft 
(2014), S. 130-157, hier S. 134. 

12 Siehe hierzu: Matthew L. Jockers: Macroanalysis. Digital Methods and Literary History. Cham- 
paign 2013, S. 63; Jannidis: »Der Autor ganz nah«, S. 180. 

13 Paula Hanssen: Elisabeth Hauptmann. Brecht’s Silent Colaborator. Bern, Berlin u.a. 1993, 
S. 250; Kebir: Ich fragte nicht nach meinem Anteil, S. 109-111. 

14 John Willett: »Bacon ohne Shakespeare?«, S.127; siehe auch: Astrid Horst: Prima inter pares. 
Elisabeth Hauptmann - Die Mitarbeiterin Bertolt Brechts. Würzburg 1992, S. 58. 
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Einzig durch Ansätze, die mit einer Mischung von zwei Signalen arbeiten, 
kann ein Gesamteindruck von Hauptmanns und Brechts Autorstil bei Dramatik 
und Prosa dargestellt werden: Abbildung 1 zeigt eine Hauptkomponentenanalyse 
(auch PCA für »Principal Component Analysis«), wie sie Christof Schöch für zwei 
Autoren bei genau zwei Gattungen vorschlagt.” 
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Abb. 1: Hauptkomponentenanalyse’® 


15 Schöch: »Corneille, Molière et les autres«, S. 149f. 
16 Alle Datensätze sind auf je 10.000 Wörter umfassende Textproben aufgeteilt und mit ent- 
sprechenden Laufnummern versehen. Ein Datensatz, der aufgrund seiner Länge lediglich eine 
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In der PCA werden die oben vorgestellten Datensätze Hauptmanns mit drei spä- 
teren Stücken Brechts und einer Auswahl von Romanen und Erzählungen vergli- 
chen.” Dabei werden die 100 MFW in diesen Texten auf zwei optisch darstellbare 
Hauptkomponenten reduziert. 

Ähnlich wie in Schöchs Beispiel zeigen die auf der horizontalen und vertika- 
len Achse abgebildeten Komponenten einen Zusammenhang mit den Kategorien 
Autorschaft und Gattungszugehörigkeit'* — im Idealfall sollte sich in jedem Vier- 
tel der Grafik eine Textgruppe der vier möglichen Kombinationen aus Autor und 
Gattung befinden. Insbesondere für Happy End bestätigt der niedrige Komponen- 
tenwert auf der y-Achse, dass eine Mitarbeit Brechts als wahrscheinlich angese- 
hen werden kann. Zudem überschneiden sich Teile von Brechts frühen Kurzge- 
schichten mit den später entstandenen Erzählungen Hauptmanns im rechten 
oberen Bereich der Darstellung, was darauf hindeutet, dass sich Hauptmann sti- 
listisch zumindest an Brecht orientiert haben könnte. 


Textprobe ergibt (z. B. »Hd_Happy End«), wird dennoch mit »1« markiert; Im Gegensatz zu spä- 
teren Untersuchungen folgt hinter jedem Namenskürzel ein Kleinbuchstabe, der die Gattung an- 
zeigt (p: Prosa, d: Drama). Diese und weitere Analysen erfolgen mit dem Paket »sylo« für R: Ma- 
ciej Eder, Jan Rybicki und Mike Kestemont: »Stylometry with R: a package for computational text 
analysis«, in: R Journal 8.1 (2016). https://journal.r-project.org/archive/2016-1/eder-rybicki- 
kestemont.pdf (20.08.2017), S. 107-121. 

17 Es handelt sich um die Stücke: Leben des Galilei, Der gute Mensch von Sezuan und Der kau- 
kasische Kreidekreis (in Abb. 1 rot). Die Prosaauswahl (grün) besteht aus den Romanfragmenten 
Die Geschäfte des Julius Caesar und dem Tuiroman, den Erzählungen im Buch der Wendungen 
(auch: Me-ti) sowie einer Auswahl aus Brechts übrigen Kurzgeschichten, die vor und nach der 
Zusammenarbeit mit Hauptmann entstanden (»B_Prosa 13-20«, »B_Prosa 21-24«, »B_Prosa 33- 
40«). 

18 Schöch: »Corneille, Moliére et les autres«, S.149; Schöch legt auch eine Korrelation der Kom- 
ponenten mit Autorschaft bzw. Gattung nahe. Bei einer explorativ-deskriptiven Anwendung von 
Spearmans Rangkorrelationskoeffizienten ergibt sich ein starker Zusammenhang von 0.78 (p- 
Wert = 1.5e-07) zwischen der ersten Komponente und der Kategorie der Autorschaft sowie eine 
mittelstarke Korrelation von 0.48 (p-Wert = 0.0053) zwischen der zweiten Komponente und der 
Gattungszugehörigkeit. Für eine Verallgemeinerung der Beobachtung ist dieses Beispiel auf- 
grund der wenigen Datensätze von Hauptmann jedoch ungeeignet. 
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Abb. 2: Hauptkomponentenanalyse unter Beriicksichtigung der gemeinsam bearbeiten Texte 


Wird die PCA ferner mit jenen Texten ergänzt, in denen beide zusammengearbei- 
tet haben (Abbildung 2), zeigen auch Brechts Kurzgeschichten aus den Jahren 
zwischen 1924 und 1932 (in schwarz) jene Überschneidung, während die neun 
Stücke unter Hauptmanns Co-Autorschaft (in blau) die gesamte Bandbreite der 
Referenztexte abdecken.” Im Gegensatz zu den Theaterstücken, für die bei der 


19 Alle Textproben von gemeinsam bearbeiteten Texten (in blau) erhalten das Namenskürzel 
»HB«. Bei den gemeinsam bearbeiteten Stücken handelt es sich um Die Dreigroschenoper, Auf- 
stieg und Fall der Stadt Mahagonny, Die heilige Johanna der Schlachthöfe, Die Rundköpfe und die 
Spitzköpfe und Mann ist Mann. Die weiteren Stücke Der Jasager. Der Neinsager, Der Ozeanflug, 
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gegebenen Datenlage kaum eine nähere Untersuchung möglich ist, lohnt sich bei 
der Kurzprosa ein detaillierterer Vergleich. 


3 Brechts Kurzgeschichten der Jahre 1924 bis 
1932 


Noch deutlicher als bei den Stücken liegen die Einschätzungen der Originalität 
der Kurzgeschichten Brechts aus den späten 1920er Jahren weit auseinander. Für 
Jan Knopf belegt der quantitative Befund von 46 Erzählungen, dass Brechts Prosa 
kein zweitrangiges Nebenprodukt war, bei dem er die Niederschrift seinen Mitar- 
beiterinnen und Mitarbeitern überlässt.” John Willett und Astrid Horst betonen 
dagegen, die Prosa war für Brecht damals nur ein Nebenverdienst und sein 
hauptsächliches Interesse galt seinen Stücken.” Folglich schreiben sie Elisabeth 
Hauptmann einen hohen Einfluss auf die Produktion zu. Hauptmann selbst be- 
sinnt 1926 mit dem Schreiben tagebuchartiger Notizen, die wahrscheinlich durch 
Brecht angeregt sind und Einblick geben in jenes »unruhige Jahr in Brechts Dich- 
terkarriere«.” Die Aufzeichnungen zeigen, wie stark sie in die Produktion von 
Brechts Kurzgeschichten eingebunden war und ihr eigenes Schreiben dafür zu- 
rückstellt.” Sabine Kebir nimmt deshalb an, dass ein unbestimmter Teil dieser 
Erzählungen in gemeinsamer Arbeit entstehen und »auch kleinere und größere 
Textabschnitte« ganz auf Hauptmann zurückzuführen sind.” 

Konkreter noch wird John Willett, der sich auf die Analyse der Originalma- 
nuskripte von elf »Berliner Kurzgeschichten« Brechts bezieht, die in der Zeit von 
1924 bis 1933 entstehen. An den auf Hauptmanns Schreibmaschine getippten Sei- 
ten seien außergewöhnlich wenige Anmerkungen Brechts zu finden im Gegen- 
satz zu »such Brechtian products as Me-Ti and the Keuner Stories«.” Dort, wo 


Das Badener Lehrstück vom Einverständnis und Die Ausnahme und die Regel befinden sich in ei- 
nem gemeinsamen Datensatz (»HBd_BadenerLehrstueck+Ozeanflug+JaNeinSager+Ausnahme- 
Regel«). 

20 Knopf: Brecht-Handbuch. Prosa, Filme, Drehbiicher, S. 60. 

21 Willett: »Bacon ohne Shakespeare?«, S. 129; Horst: Prima inter pares, S. 30. 

22 Häntzschel: Brechts Frauen, S. 154; Kebir: Ich fragte nicht nach meinem Anteil, S. 32. 

23 Hantzschel: Brechts Frauen, S.154, 155. 

24 Kebir: Ich fragte nicht nach meinem Anteil, S. 63, 94. 

25 Willett: »Bacon ohne Shakespeare?«, S. 128. 
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Brecht konkret am Text gearbeitet hat, so Willetts Annahme, sei dies anhand sei- 
ner Anmerkungen nachvollziehbar.” Demgegenüber findet er bei vier Erzählun- 
gen gar keine Anmerkungen und bei dreien nur wenige, weshalb er diese Texte 
Hauptmann zuschreibt.” Bei drei weiteren Kurzgeschichten erkennt er zwar noch 
einen Einfluss Hauptmanns, vermutet aber den größeren Anteil bei Brecht.” Ft- 
was gesondert beschreibt Willett die Erzählung Der Arbeitsplatz, von der Haupt- 
mann und Brecht zunächst unterschiedliche Varianten erstellen. Hauptmanns 
Version ist nicht erhalten, doch Willett hebt die große Ähnlichkeit der publizier- 
ten Fassung zu ihrer Kurzgeschichte Gastfeindschaft hervor.” 

Da Willett mit Me-Ti und den Geschichten vom Herrn Keuner auch entspre- 
chende Vergleichstexte Brechts nennt, liegt es nahe, seine These damit stilomet- 
risch zu testen. Abbildung 3 zeigt eine hierarchische Clusteranalyse basierend 
auf den 100 MFW und Burrows Delta-Distanz. 


26 Ebd. 

27 Die ersten vier Kurzgeschichten sind: Gespräch über die Südsee, Eine kleine Versicherungsge- 
schichte (auch unter dem Titel: Eine Pleite-Idee), Vier Männer und ein Pokerspiel und 
Lebenslauf des Boxers Samson Körner. Bei den darauffolgend genannten handelt es sich um: 
Nordseekrabben, Barbara und Die Bestie. Angesichts des Erfolgs von Die Bestie beim Kurzge- 
schichtenpreis der »Berliner Illustrierten« betont Willett sogar, mit Hauptmanns Hilfe habe 
Brecht seine Gewinne maximieren können, obwohl dafür keine konkreten Belege vorliegen (Wil- 
lett: »Bacon ohne Shakespeare?«, S. 129; Brigitte Bergheim unter Mitarbeit von Michael Durch- 
ardt, Ute Liebig, Jan Knopf: »Kommentar«, in: Bertolt Brecht: Werke. Große kommentierte Berli- 
ner und Frankfurter Ausgabe in 30 Bänden, Bd. 19: Prosa 4. Geschichten, Filmgeschichten, 
Drehbücher 1913-1939, hg. v. Werner Hecht, Jan Knopf, Werner Mittenzwei und Klaus-Detlef 
Müller. Berlin, Weimar, Frankfurt a. M. 1997, S. 575-730, hier S. 646ff.). Die Mitarbeit bei Nord- 
seekrabben erwähnt Hauptmann hingegen wieder im Tagebuch (Ebd., S. 638). 

28 Jene Kurzgeschichten, bei denen Willett den größeren Anteil bei Brecht vermutet sind: Brief 
über eine Dogge, Schlechtes Wasser und Safety First. Letztere wurde erst 1933 veröffentlicht und 
findet sich nicht im Datensatz »HB_Prosa 24-32«. 

29 Willett: »Bacon ohne Shakespeare?«, S. 129; Kebir: Ich fragte nicht nach meinem Anteil, S. 98; 
Jan Knopf hält dagegen eine gemeinsame Bearbeitung der finalen Version für unwahrscheinlich 
angesichts des in die Entstehungszeit fallenden Exils Brechts sowie Hauptmanns Verhaftung im 
Jahr 1933 und ihrer anschließenden Flucht nach Paris. (Knopf: Brecht-Handbuch. Prosa, Filme, 
Drehbücher, S. 223). Aufgrund der späteren Veröffentlichung befindet sich Der Arbeitsplatz eben- 
falls nicht im Datensatz »HB_Prosa 24-32«. 
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Kurzgeschichten Kurzgeschichten 
Cluster Analysis Bootstrap Consensus Tree 
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Abb. 3-4: Clusteranalyse (bei 100 MFW) und Consensus Tree (100-1000 MFW) zur These Wil- 
letts*° 


Weil einfache Clusteranalysen bei veränderten MFW häufig Schwankungen un- 
terliegen, wurden zudem elf Clusteranalysen mit 100-1000 MFW bei einer Stei- 
gerung von 100 MFW in einem Bootstrap Consensus Tree übereinandergelagert 
(Abbildung 4). Bei den Consensus Trees gilt: Je verzweigter die Ausdifferenzie- 
rung der »Äste« ist, umso größer sind die Übereinstimmungen, basierend auf der 
Delta-Distanz, und die Validität des Zusammenhangs. 

In beiden Darstellungen scheint Willetts These Bestätigung zu finden, denn 
beide Datensätze der »Berliner Kurzgeschichten« gruppieren sich eindeutig mit 
den Erzählungen Hauptmanns. Jedoch unterliegt Willetts Auswahl der Referenz- 
texte seiner subjektiven Empfindung darüber, was den typischen Stil Brechts 


30 Die sieben Kurzgeschichten, die Willett Hauptmann zuschreibt, befinden sich im Datensatz 
»HB_Auswahl A« (in Abb. 3 und 4 blau). Die drei Erzählungen, bei denen er den Hauptanteil bei 
Brecht vermutet, sowie Der Arbeitsplatz bilden den Datensatz »HB_Auswahl B« (ebenfalls blau). 
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ausmacht. Werden hingegen wie in der obigen PCA auch jene frühen Kurzge- 
schichten Brechts herangezogen, die noch vor der Bekanntschaft mit Hauptmann 
entstanden sind, zeigt sich erneut eine Überschneidung dieser Texte mit Haupt- 
manns Schriften (Abbildung 5 und 6). 
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Abb. 5-6: Consensus Trees (100-1000 MFW) unter Verwendung von Brechts Kurzgeschichten 
vor 192471 


Je nach Korpuszusammensetzung wechselt die Gruppierung von Willetts Aus- 
wahl nunmehr zwischen den neu eingefiigten Kurzgeschichten Brechts und 
Hauptmanns Referenztexten. Zwar beseht eine Tendenz zu Hauptmanns Schrif- 
ten, doch für eine eindeutige Attribuierung erweisen sich die Cluster als zu insta- 
bil. 


31 In Abbildung 5 wird der Datensatz »B_Prosa 13-20« hinzugefügt und in Abbildung 6 zusätz- 
lich »B_Prosa 21-24«. 
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Sinnvoller, als mit der eng gefassten These Willetts zu arbeiten, scheint es 
dagegen, ein größeres Spektrum von Referenz- und Vergleichstexten zu verwen- 
den. Insbesondere die Beriicksichtigung weiterer Prosatexte Brechts fiihrt zu ei- 
ner verlässlicheren Modellierung seines Stils. Abbildung 7 zeigt nunmehr eine 
Makroperspektive auf dieses umfangreiche Prosawerk, wobei darin Willetts »Ber- 
liner Kurzgeschichten« sowie die sonstigen zwischen 1924 und 1932 entstanden 
Kurzgeschichten gesondert betrachtet werden.” 
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Abb. 7: Makroperspektive auf Brechts Werk und Hauptmanns Beitrag (Consensus Tree mit 
100-1000 MFW) 


32 Der zuvor genutzte Datensatz (»HB Prosa 24-32«) wird abzüglich der Auswahl Willetts ver- 
wendet. 
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Bei dieser Korpuszusammensetzung können zunächst unterschiedliche sti- 
lometrische Signale beobachtet werden. Zuvorderst gruppieren sich die Textpro- 
ben der jeweiligen Werke. Darauf folgt eine Zuordnung nach Gattung: auf einem 
gemeinsamen Ast liegen etwa die eigenständigen Romane (Die Geschäfte des 
Herrn Julius Caesar, der Tuiroman und der Dreigroschenroman)”, Sammlungen 
kurzer parabelhafter Texte (Das Buch der Wendungen, die Geschichten vom Herrn 
Keuner und die Flüchtlingsgespräche) sowie die späten und ein Teil der frühen 
Kurzgeschichten Brechts (alle in Abb. 7 rot). Der andere Teil der Kurzgeschichten 
(»B_Prosa 21-24« Teil 3+4 sowie »B_Prosa 13-20«; in rot) befindet sich dagegen 
erneut gemeinsam mit Hauptmanns Schriften (in grün) sowie den kollaborativ 
bearbeiteten Texten (in blau) im letzten verbliebenen Cluster. Vermutet werden 
kann bei der Zuordnung der Kurzgeschichten zu zwei Clustern der Einfluss eines 
frühen und späten Stils Brechts — ein weiteres stilometrisches Signal, das insbe- 
sondere durch Dirk van Hulle und Mike Kestemont am Beispiel von Samuel Be- 
ckett beschrieben wird.” 

Vor dem Hintergrund des sehr großen Vergleichsmaterials von Brecht bestä- 
tigt sich die stilistische Ähnlichkeit von Hauptmanns Referenztexten und den ge- 
meinsam bearbeiten Schriften. Brechts frühe Kurzgeschichten befinden sich da- 
gegen eher am unteren Ende des Astes. Folgt man der Vorstellung eines 
Einflusses der Schaffensperioden, so scheint es, als habe Brecht vor der Begeg- 
nung mit Hauptmann einen spezifischen Stil bei seinen Kurzgeschichten gehabt, 
der unter ihrer Mitwirkung weiter gewachsen ist. Die Linie bricht mit dem Jahr 
1932 ab, in dem auch die Kollaboration mit Hauptmann endet, und spätere Kurz- 
geschichten Brechts zeigen wiederum Ähnlichkeiten mit Textproben der Jahre 
1921 bis 1924.” Dies lässt sich als Rückbesinnung auf einen Stil deuten, der für 


33 Lediglich dem Tuiroman werden einzelne Kurzgeschichten von 1933 bis 1940 zugordnet. 
Diese entstanden zeitgleich, sodass darin eine stilistische Parallele liegen könnte (Knopf: Brecht- 
Handbuch. Prosa, Filme, Drehbücher, S. 60; Jeske, Wolfgang: »Kommentar«, in: Bertolt Brecht: 
Werke. Große kommentierte Berliner und Frankfurter Ausgabe in 30 Bänden, Bd. 17: Prosa 2. Ro- 
manfragmente und Entwürfe, hg. v. Werner Hecht, Jan Knopf, Werner Mittenzwei, Klaus-Detlef 
Müller. Berlin, Weimar, Frankfurt a. M. 1989, S. 459-581, hier S. 460f. 

34 Dirk van Hulle und Mike Kestemont: »Periodizing Samuel Beckett’s Works. A Stylochrono- 
metric Approach«, in: Style 50.2 (2016), S. 172-202. 

35 Getestet wurde das Clustering auch mit weiterentwickelten Varianten von Delta. Bei der ur- 
sprünglichen Form von Burrows findet eine Normalisierung der Wortfrequenzen durch die Be- 
rechnung von z-Scores statt. Dadurch wird das Clustering abhängig vom Verhältnis der analy- 
sierten Textgruppen und ein hoher Anteil nur eines einzelnen Autors (wie in diesem Falle 
Brechts) könnte das Ergebnis einseitig beeinflussen. Bei den verbesserten Distanzmaßen »Arga- 
mons Linear Delta« und »Eder’s Simple« bleibt die Zuordnung stabil insbesondere im Cluster 
mit Hauptmanns Schriften und den gemeinsam bearbeiteten Texten. (Nähere Beschreibungen 


108 — Florian Barth 


Brecht vor der Zusammenarbeit mit Hauptmann charakteristisch war. Eine solche 
Interpretation bleibt jedoch eine Hypothese, zu deren Uberpriifung weitere Pro- 
satexte Hauptmanns aus spateren Schaffensjahren fehlen. 


4 Kollektive Arbeitsweise und 
Vokabularvergleich durch Zeta 


An dieser Stelle gilt es hervorzuheben, dass ein Autorschaftsignal im Sinne der 
Stilometrie nicht mit theoretischen Autorschaftskonzepten korrespondiert. Fotis 
Jannidis betont, sowohl statistische Stilometrie als auch literaturwissenschaftli- 
che Stilistik teilen die Grundannahme, Stil beruhe auf einer Wahl.’ Autorstil 
lasse sich auch in der Stilometrie als typische Wahl von Worten oder bestimmten 
Formulierungen erfassen.” Damit wird Autorschaft im Wesentlichen mit einem 
individuellen Schreibstil gleichgesetzt, der im Falle der spezifischen Arbeitstei- 
lung von Hauptmann und Brecht nicht notwendigerweise dem kreativen Anteil 
entspricht. 

Ein Beispiel dafür findet sich in der Entstehung der fiktiven Autobiographie 
Lebenslauf des Boxers Samson Körner, der umfangreichsten Kurzgeschichte in 
Willetts Auswahl. Brecht hat dabei umfassende Rechercheaufgaben übernom- 
men und zahlreiche Interviews mit dem Halbschwergewichtsmeister Samson 
Körner geführt.” Die Niederschrift des Texts findet hingegen gemeinsam mit Eli- 


dieser Maße finden sich bei Shlomo Argamon: »Interpreting Burrows’s Delta. Geometric and 
probabilistic foundations«, in: Literary and Linguistic Computing 23.2 [2008], S. 131-47, sowie 
Maciej Eder, Jan Rybicki und Mike Kestemont: »Stylo«. A package for stylometric analysis. 
https://sites.google.com/site/computationalstylistics/. 2017 (20.08.2017), S. 16, 17. Bei der Ver- 
wendung von »Eders Delta« gibt es hingegen geringe Abweichungen, etwa wird der zweite Teil 
der »Berliner Kurzgeschichten«, bei dem Willett einen stärkeren Anteil Brechts vermutet, auch 
Brecht zugeordnet. Maciej Eder und Jan Rybicki bemerken aber, dass Eders Distanzen eher für 
stark flektierte Sprachen geeignet sind, bei »Eder’s Delta« werden beispielsweise die oberen 
Teile der Wortliste stärker gewichtet (Eder, Rybicki, Kestemont: »Stylo«, S. 16; Christof Schöch: 
Beyond the black box or understanding the difference between various statistical distance mea- 
sures. http://dragonfly.hypotheses.org/101. Weblog 2012 [20.08.2017]). Für weniger flektierte 
Sprachen wie Deutsch und Englisch beobachten sie dagegen bessere Resultate bei der Verwen- 
dung von »Burrows Delta« (ebd.). 

36 Jannidis: »Der Autor ganz nah«, S. 178. 

37 Ebd. 

38 Bergheim u. a.: »Kommentar«, S. 621. 
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sabeth Hauptmann meist morgens statt, wahrend Brecht parallel dazu am Nach- 
mittag den Proben an Baal beiwohnt.” Nachvollziehbar ist dieser Prozess durch 
Angaben in Hauptmanns Tagebuch sowie einen Brief Brechts, in dem er die pa- 
rallele Proben- und Schreibarbeit beklagt.“° 

John Fuegi hält in seiner Fundamentalkritik »Brecht und Co.« fest, der Früh- 
aufsteher Brecht habe stets »[n]ach ein paar Stunden gemeinsamer Arbeit jeden 
Vormittag« die Wohnung verlassen, »um sich anderen Angelegenheiten zu wid- 
men«.“ Hauptmann hingegen »arbeitete [...] bis spät in die Nacht [...] und machte 
aus den Bruchstücken der Arbeit vom Vormittag ein kohärentes Ganzes.«“? Sa- 
bine Kebir widerspricht jedoch der Vorstellung, Brecht habe sich die Leistung 
Hauptmanns zu eigen gemacht, und verweist vielmehr auf eine kollektive Ar- 
beitsweise zwischen Brecht und seinen Mitarbeiterinnen und Mitarbeitern,“ zu 
denen auch Emil Hesse-Burri bei Dramen und Caspar Neher bei Prosa gehören.“ 

Hauptmann selbst gibt an, Brecht sah sich im Bereich der Kurzgeschichten 
als Lernender.‘° Sie lässt im Interview von 1972 keinen Zweifel an ihrer Mitautor- 
schaft bei zahlreichen Kurzgeschichten, aber auch offen, wie diese genau aussah. 
Dabei tritt sie der Vorstellung einer Ausbeutung durch Brecht entgegen: 


»Wir hatten ja unglaublich viel davon. Hätten wir gesucht, hätten wir inseriert, hätten wir 
die besten Leute gefragt, wäre wahrscheinlich keiner darauf gekommen zu sagen: Ja, wenn 
sie schreiben lernen wollen, gehen sie zu Brecht!«“* 


Die Behauptung Fuegis, Brecht habe sich gezielt der kreativen Leistung seiner 
Mitarbeiterinnen und Mitarbeiter bemächtigt, mag überspitzt sein; dennoch 
scheint es möglich, dass eine grundlegende Formulierung der Kurzgeschichten 
durch Hauptmann erfolgte, wichtige inhaltliche Implikationen dagegen von 
Brecht stammten. Als Muster hierfür kann die Abfassung der Dreigroschenoper 
gelten: Zwar übersetzt Elisabeth Hauptmann The Beggar’s Opera von John Gay 


39 Ebd.; Werner Hecht: Brecht Chronik. Frankfurt a. M. 1997, S. 194. 

40 Kebir: Ich fragte nicht nach meinem Anteil, S. 35; Bergheim u. a.: »Kommentar«, S. 621. 

41 Fuegi: Brecht & Co., S. 206. 

42 Ebd. 

43 Kebir: Ich fragte nicht nach meinem Anteil, S. 30. 

44 Ebd.; Hecht: Brecht Chronik. Ergänzungen. S. 16; Jan Knopf: Brecht-Handbuch. Eine Ästhetik 
der Widersprüche. Lyrik, Prosa, Schriften. Stuttgart 1984 (Band 2), S. 252. 

45 Ebd., S. 94, 104. 

46 Kebir: Ich fragte nicht nach meinem Anteil, S. 94. 
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und bereitet sie unter hohem eigenen Aufwand auf, weshalb nicht wenige Dia- 
loge in der finalen Fassung direkt auf sie zurückgehen.” Doch gerade das Neuar- 
rangement wird im Wesentlichen Brecht zugeschrieben und in der Forschung als 
Grund erachtet, weshalb »just dieser Text zur Erneuerung nicht nur des deut- 
schen Dramas beigetragen hat«.“ Jan Knopf betont, Brechts Änderungen machen 
aus der Vorlage »einen völlig neuen Text mit neuer Qualität«.“ Auch Sabine Ke- 
bir bestätigt, dass »oft verbliiffende[] kleine[] Änderungen oder Umstellungen 
[...] den endgültigen sprachlichen Ausdruck« der Dreigroschenoper schaffen.’ 
Bei dieser Form der Textgenese, die auch die Kurzgeschichten kennzeichnet, 
wird deutlich, wie wenig Brechts kreativer Anteil durch eine stilistische Autor- 
schaftsanalyse fassbar ist, die auf der Verteilung hochfrequenter Wörter basiert. 

Eine gänzlich andere Perspektive auf Autorschaft bietet hingegen die Zeta- 
Berechnung, bei der niedriger frequente Wörter bestimmt werden, die von einer 
Textgruppe gegenüber einer anderen bevorzugt benutzt oder gemieden werden.” 
Die Methode dient hier dazu, für die Autoren Hauptmann und Brecht typische 
Begrifflichkeiten zu identifizieren, auf deren Verwendung hin die Kurzgeschich- 
ten der Jahre 1924 bis 1932 getestet werden. Dabei werden aus den Referenztexten 
zwei Listen von je 1.400 Wörtern extrahiert, die typisch für den jeweiligen Autor 
sind.” 

Brecht nennt als Vorbild seines sprachlichen Ausdrucks die »biirgerliche 
Klarheit der Sprache Luthers und die ungeschminkte Epik der Bibel«.° Er orien- 
tiert sich stilistisch stark am »Lutherdeutsch« und nutzt biblische Gleichnisse 
und Motive in seinen Geschichten.” Nach der Zeta-Berechnung finden sich unter 
seinen bevorzugten Begriffen »Teufel«, »Opfer«, »verraten«, »Kreuz«, »Weib«, 
»zornig« oder »Wasser«, die auf christliche Motive verweisen. Zudem sind Worte 
vorhanden, die der Beschreibung von Auseinandersetzungen dienen, wie sie 
auch in alttestamentlichen Geschichten vorkommen, z. B. »Kampf«, »blutig«, 
»Tod«, »Mord« oder »Soldaten«. Hervorzuheben ist, dass es sich dabei nicht um 


47 Ebd., S.102. 

48 Tatlow: Gab es denn überhaupt einen Bertolt Brecht? Berlin 1995. 

49 Knopf: »Sex for text«, S. 54. 

50 Kebir: Ich fragte nicht nach meinem Anteil, S. 102. 

51 Zeta wurde ursprünglich von John Burrows entwickelt, jedoch durch Hugh Craig entschei- 
dend erweitert (Eder, Rybicki und Kestemont: »Stylo«, S. 26). Eine genaue Besprechung der Wir- 
kungsweise findet sich auch im Beitrag von Christof Schöch in diesem Band. 

52 Als Referenztexte Brechts werden alle Kurzgeschichten vor und nach den Jahren 1924-32 
verwendet. 

53 Kebir: Ich fragte nicht nach meinem Anteil, S. 98. 

54 Ebd., S. 98, 101. 
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Sinntrager handelt, die Brecht besonders haufig verwendet, sondern nur um 
jene, die Hauptmann im Vergleich zu Brecht wenig oder nicht nutzt. So kommt 
etwa der Begriff »Gott« in keiner der beiden Listen vor, da er von beiden ähnlich 
oft gebraucht wird. 

Bei Brecht steht die Verwendung des biblischen Materials im Gegensatz zu 
christlichem Glauben. In provokanter Weise wollte er die Menschen von einem 
blinden Gottvertrauen abbringen und zur Verwendung der eigenen Vernunft er- 
ziehen.” Auch Hauptmanns Erzählungen zeugen von dieser Tendenz, etwa bei 
der Verwertung biblischer Passagen in der Erzählung Er soll dein Herr sein.” Sie 
hatte gemeinsam mit Brecht Spaß daran, »die Gesellschaft durch Konfrontation 
mit ihren hohl gewordenen Werten zu schockieren«, machte sich aber dennoch 
nicht den auf knappe Formulierungen ausgerichteten »Lutherstil« Brechts zu ei- 
gen.” Nach Sabine Kebir tendiere Hauptmanns Sprache vielmehr dazu, kom- 
plexe Zusammenhänge in Kausalkonstruktionen darzustellen.” Diese unter- 
schiedlichen Ansätze zeigen sich auch in Brechts Anmerkungen in Hauptmanns 
Manuskript von Bessie Soundso, in dem er viele Attribute streicht und ihr Straf- 
fung und Reduktion empfiehlt.” In der Zeta-Liste Hauptmanns drückt sich die 
sprachliche Differenz zu Brecht insbesondere in der Bevorzugung von Verben 
aus, die Vorgänge, Beziehungen oder Gefühlszustände denotieren. 

Die Verwendung der mit Zeta ermittelten Wörter in den Referenztexten ist in 
Abbildung 8 graphisch dargestellt. Auf der y-Achse befinden sich die Häufigkei- 
ten der von Brecht bevorzugten Begriffe (»markers«) und auf x-Achse jene Haupt- 
manns (»antimarkers«). Die Textproben von Hauptmann (in grün) und Brecht (in 
rot) ergeben zwei abgeschlossene Felder und verdeutlichen den disparaten Cha- 
rakter der Wortlisten.‘ 


55 Ebd. S. 98, 99. 

56 Ebd. 

57 Ebd., S. 91, 98, 100 

58 Ebd. S. 100. 

59 Ebd. 

60 Hauptmann verwendet die Verben »kannte«, »denken«, »meinte«, »rief«, »wohnte«, »fah- 
ren«, »fragen«, »billigen«, die Brecht im Vergleich dazu wenig nutzt. 

61 Die Textproben umfassen hier jeweils 5000 Wörter, was für die Zeta-Berechnung ausrei- 
chend ist. Die Werte für Marker und Antimarker sind absolute Token-Vorkommen, sodass be- 
sonders die von Hauptmann bevorzugten Wörter in ihren Texten meist doppelt so häufig vor- 
handen sind wie die Marker bei Brecht. 
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Abb. 8: Darstellung des spezifischen Vokabulars von Hauptmann und Brecht 


Die Marker und Antimarker der Kurzgeschichten, bei denen Brechts Autorschaft 
strittig ist, sind blau gekennzeichnet — erneut positionieren sich die gemeinsam 
bearbeiteten Texte »zwischen« den Vergleichsgruppen. Jedoch besteht in diesem 
Fall eine Tendenz zu Brechts bevorzugtem Vokabular, was auf eine thematisch- 
sprachliche Setzung durch ihn hindeutet. 

Allerdings kommt auch der Stil, den Brecht bewusst anstrebt, nachweislich 
nicht ohne Hauptmanns Unterstützung aus, denn sie war stets an der Suche nach 
relevantem Material beteiligt. Sie durchsuchte Sport- und Bibelzeitschriften nach 
bestimmten von Brecht gewünschten Wendungen, las englische Zeitungen, aus 
denen sie „entscheidende Formulierungen« übersetzte und entwickelte dabei ein 
treffsicheres Gefühl, was den Brechtischen Stoffhunger stillen würde.“ Nach Sa- 
bine Kebir entpuppen sich »[d]ie poetischsten Stellen« in Brechts Werken »als 


62 Kebir: Ich fragte nicht nach meinem Anteil, S. 100, 101. 
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aus amerikanischen Schlagern oder Sportreportagen entlehnte Wendungen [...] 
in der Formulierung Elisabeth Hauptmanns«.® Brecht habe diese teils wörtlich 
übernommen, hingegen oft auch »ganz leicht, aber doch markant geändert«, so- 
dass wie bei vielen seiner Stückbearbeitungen ein ihm eigener Duktus entsteht.“ 
Solch marginale Änderungen entziehen sich allerdings der Messbarkeit durch 
Zeta, das auf spezifische Unterschiede des Vokabulars ausgerichtet ist. Haupt- 
mann, so Kebir weiter, habe zudem gelernt, bei Verbesserungen und Erweiterun- 
gen an Brechts Texten den »lutherisch-brechtischen Sprachgestus« nachzuah- 
men, was ebenfalls das Ergebnis der Zeta-Berechnung relativiert.” 


5 Fazit 


Ausgehend von der Arbeitsfrage, ob und inwieweit ein Einfluss Hauptmanns auf 
Brechts Werke belegbar ist, gelingt es, zahlreiche Beobachtungen aus der Brecht- 
Forschung quantitativ zu modellieren und zu bestätigen. Unabhängig von mög- 
lichen Ergebnissen bezeugt dies zunächst die Leistungsfähigkeit der Stilometrie 
und ihre Eignung als literaturwissenschaftliche Heuristik. 

In den unternommenen Untersuchungen kann ein enger Zusammenhang 
zwischen den Schriften Hauptmanns und den gemeinsam mit Brecht bearbeite- 
ten Werken festgestellt werden. Anstatt von einseitiger Verfasserschaft auszuge- 
hen, empfiehlt sich insbesondere bei Brechts Kurzprosa der 1920er Jahre die An- 
nahme eines gemeinsamen Schreibprozesses und einer Wechselwirkung beider 
Autoren. Aufgrund der komplexen Arbeitsteilung zwischen Hauptmann und 
Brecht, lassen bisherige stilometrische Analysen jedoch kaum Aussagen darüber 
zu, wer wen vorrangig beeinflusste. 

Hier besteht Potential für weitere Untersuchungen: Neben einer präzisieren 
Signaltrennung kann gerade die Berücksichtigung der Werke anderer Mitarbei- 
terinnen und Mitarbeiter zu weiteren Erkenntnissen über Hauptmanns Anteil 
führen. Die Untersuchung ließe sich auf das Kollektiv um Brecht erweitern — Emil 
Hesse-Burri hat im Verlauf seines Lebens zahlreiche Drehbücher verfasst und 
auch von Magarete Steffin oder Casper Neher liegen eigene Texte vor, die als Ver- 
gleichsgrundlage dienen könnten.“ Eine solch komplexe Darstellung von 


63 Ebd. 

64 Ebd. 

65 Ebd., S. 101. 

66 Kebir: Ich fragte nicht nach meinem Anteil, S. 30, 67. 
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Brechts Kollaborationen der 1920er Jahre ware eine anspruchsvolle Aufgabe fiir 
die Stilometrie und könnte eine weit bessere Einschätzung der Autorschaftsleis- 
tung von jeweils einzelnen Mitarbeiterinnen und Mitarbeitern wie Elisabeth 
Hauptmann ermöglichen. 


Anhang 


Sieben Stücke Bertolt Brechts mit Elisabeth Hauptmann als Co-Autorin 
»Mann ist Mann«; »Die Dreigroschenoper«; »Der Ozeanflug«; »Das Badener Lehr- 
stück vom Einverständnis«; »Aufstieg und Fall der Stadt Mahagonny«; »Der Ja- 
sager. Der Neinsager«; »Die heilige Johanna der Schlachthöfe«; »Die Rundköpfe 
und die Spitzköpfe«; »Die Ausnahme und die Regel« 

Quelle: Bertolt Brecht: Die Stücke von Bertolt Brecht in einem Band. Frankfurt a. 
M. 1978. 


46 Kurzgeschichten Brechts aus den Jahren 1924-1932, an denen Haupt- 
mann mitwirkte (Datensatz »HB_Prosa 24-32«) 

»Brief über eine Dogge«; »Der Alexanderzug«; »Die Antwort«; »E H B«; »Mein 
Vater wird mir immer im Gedächtnis bleiben«; »Die höflichen Chinesen«; »Von 
der Sintflut«; »Das Kreuzwort«; »Als der große chinesische Weise Konfuzius«; 
»Der Kinnhaken«; »Der Wurm und der große Mann«; »Kurzer Besuch im Deut- 
schen Museum«; »Nikaragua 5. Mai«; »Der Lebenslauf des Boxers Samson-Kör- 
ner«; »Schlechtes Wasser«; »Eine Pleite-Idee« (auch: »Eine kleine Versiche- 
rungsgeschichte)«; »Vier Männer und ein Pokerspiel oder Zuviel Glück ist kein 
Glück«; »Gespräch über die Südsee«; »Marie kommt«; »Kurz nach dem Kriege«; 
»Die Erschießung der Tänzerin Mata Hari zu Paris am 12. März 1917«; »»Nordsee- 
krabben« oder Die moderne Bauhaus-Wohnung«; »Das Paket des liehen Gottes«; 
»Ein kleines Gespräch«; »Kritik«; »Barbara«; »Meine längste Reise«; »Müllers na- 
türliche Haltung«; »Die Mutter aller Seeleute der Welt«; »Der Moabiter Pferde- 
handel«; »Die Bestie«; »Grabrede für C N«; »Ich wundere mich über meine Auf- 
wartefrau«; »Verhalten des Denkenden selbst«; »Über den Verrat«; »Alle 
Eingeweihten wußten«; »Das sehr weise Prinzip des Benützens«; »Die Beule«; 
»Die zwei Hergaben«; »In ein berüchtigtes Lokal«; »In Le Lavandou, einem klei- 
nen Ort«; »Der Denkende tadelte oft seine Freundin«; »Ein Schriftsteller, ge- 
fragt«; »Santa Lucia oder Der Gelegenheitskauf«; »In einem großen Land lebte 
einmal«; »Betrogene Hoffnungen« 

Quelle: Bertolt Brecht: Werke. Große kommentierte Berliner und Frankfurter Aus- 
gabe in 30 Bänden, Bd. 19: Prosa 4. Geschichten, Filmgeschichten, Drehbücher 
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1913-1939, hg. v. Werner Hecht, Jan Knopf, Werner Mittenzwei und Klaus-Detlef 
Müller. Berlin, Weimar, Frankfurt a. M. 1997, S. 189-337. 


Auswahl Willetts” 

»HB_Auswahl A« 

»Gespräch über die Südsee«; »Eine kleine Versicherungsgeschichte« (auch unter 
dem Titel: »Eine Pleite-Idee«), »Vier Männer und ein Pokerspiel und Lebenslauf 
des Boxers Samson Körner«; »Nordseekrabben«; »Barbara«; »Die Bestie« 
»HB_Auswahl B« 

»Brief über eine Dogge«; »Schlechtes Wasser«; »Safety First«; »Der Arbeitsplatz« 


Veröffentlichte Kurzgeschichten Elisabeth Hauptmanns (Datensatz 
»H_Prosa«) 

»Julia ohne Romeo«; »Bessie Soundso«; » Aller Leute Freund«; »Er soll dein Herr 
sein«; »Auf der Suche nach Nebeneinnahmen«; »Kleopatra und Gastfeindschaft« 
Quellen: Elisabeth Hauptmann: Julia ohne Romeo. Berlin, Weimar 1977; Elisa- 
beth Hauptmann: Lesebuch. Köln 2004. 


Fragmente und Erlebnisberichte Elisabeth Hauptmanns (Datensatz 
»H_Archiv«) 

Quellen: Akademie der Künste, Berlin (AdK); Bertolt-Brecht-Archiv, Berlin (BBA) 
Im Greyhound unterwegs (AdK, Signatur: 278-1); Ohne Titel, [Incipit:]»George war 
nicht...< (AdK, Signatur: 149-4); Unbetitelte Fragmente (BBA, Mappe: 448, S. 44- 
46); Show and Parading (AdK, Signatur: 278/3), Ohne Titel, [Incipit:] »Sie hatte 
keine Begabung... (AdK, Signatur: 278-5) 

Quellen: Elisabeth Hauptmann: Julia ohne Romeo; Elisabeth Hauptmann: Lese- 
buch. 

»Gedanken am Sonntagmorgen«; »Als Lehrerin in den USA«; »Der Hemden- 
kauf«; »Leseerlebnisse im Elternhaus«; »Eine wahre Geschichte« 


Theaterstücke Elisabeth Hauptmanns und Bertolt Brechts 
Elisabeth Hauptmann: »Happy End«, in Hauptmann: Julia ohne Romeo. 
Bertolt Brecht: Leben des Galilei. Text und Kommentar. Frankfurt a. M. 1998. 


67 Alle Kurzgeschichten der Auswahl Willetts finden sich auch im Datensatz »HB_Prosa 24-32«, 
außer Safety First und Der Arbeitsplatz, deren Quelle ist: Bertolt Brecht: Werke. Prosa 4, S. 345- 
361. 
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Bertolt Brecht: Der gute Mensch von Sezuan. Text und Kommentar. Frankfurt a. M. 
2003. 
Bertolt Brecht: Der kaukasische Kreidekreis. Text und Kommentar. Frankfurt a. M. 
2003. 


Romane und Prosa-Sammlungen Brechts 

Bertolt Brecht: »Die Geschäfte des Julius Caesar«, in: Werke. Große kommentierte 
Berliner und Frankfurter Ausgabe in 30 Bänden, Bd. 17: Prosa 2. Romanfragmente 
und Romanentwürfe, hg. v. Werner Hecht, Jan Knopf, Werner Mittenzwei und 
Klaus-Detlef Müller. Berlin, Weimar, Frankfurt a. M. 1989, S. 163-390. 

Bertolt Brecht: »Dreigroschenroman«, in: Werke. Große kommentierte Berliner 
und Frankfurter Ausgabe in 30 Bänden, Bd. 17: Prosa 1. Dreigroschenroman, hg. v. 
Werner Hecht, Jan Knopf, Werner Mittenzwei und Klaus-Detlef Müller. Berlin, 
Weimar, Frankfurt a.M. 1990, S. 7-391. 

Bertolt Brecht: »Buch der Wendungen«, in: Werke. Große kommentierte Berliner 
und Frankfurter Ausgabe in 30 Bänden, Bd. 17: Prosa 3. Sammlungen und Dialoge, 
hg. v. Werner Hecht, Jan Knopf, Werner Mittenzwei und Klaus-Detlef Müller. Ber- 
lin, Weimar, Frankfurt a. M. 1995, S. 45-194. 

Bertolt Brecht: »Flüchtlingsgespräche«, in: Werke. Prosa 3, S. 195-327. 

Bertolt Brecht: Geschichten vom Herrn Keuner. Frankfurt a. M. 1971. 

Bertolt Brecht: »Tuiroman«, in: Werke. Prosa 2, S. 9-161. 


Kurzgeschichten Bertolt Brechts 1913-1920 (Datensatz »B_Prosa 13-20«) 
»Der Bingen«; »Der Geyer««, »Die Geige des Todes«; »Die Geschichte meines Le- 
bens«; »Balkankrieg»; »Die Geschichte von einem, der nie zu spät kam«; »Wag- 
ner«; »Der Dichter«; »Der Preußenbund«; »Der Tango«; »Die Mutter und der 
Tod«; »Karneval«; »Märchen«; »Der Freiwillige«; »Ballade«; »Dankgottes- 
dienst«; »Der Geierbaum«; »Bargan läßt es sein«; »Das Geschwätz«; »Ein gemei- 
ner Kerl«; »Die Fahrt im Abteil«; »Ein Erzengel watete die Stiegen herab«; »Der 
Proletarier«; »Und es geschah, daß ein Mann hinabging«; »XX kam zu Bert 
Brecht«; »»Absalom reitet durch den Wald««; »»Das Tanzfest««; »Die Geschichte 
vom Mann in der andern Kammer«; »Pastor Johnstom hielt gestern eine Ab- 
schiedspredigt« 

Quelle: Brecht: Werke. Prosa 4, S. 7-52. 
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Kurzgeschichten Bertolt Brechts 1921-1924 (Datensatz »B_Prosa 21-24«) 
»Das Mysterium der Jamaika-Bar«; »Der Brillantenfresser«; »Drei im Turm«; »Der 
Javameier«; »Seife«; »Geschichte auf einem Schiff«; »Ein Mann versucht, sein Le- 
ben anzubringen«; »Der Blinde«; »Der Deserteur«; »Der Vizewachtmeister«; »Die 
dumme Frau«; »Die Erleuchtung«; »Die Hilfe«; »Menagerie, eine Varieténum- 
mer«; »Aber dann erinnerte ich mich an einen Mann«; »Als Eleazar das Riesen- 
geschlecht ausgerottet hatte«; »Die Flaschenpost«; »Der Sterbende«; »Robinso- 
nade auf Assuncion«; »Die Geschichte vom Kapitän Peter Waals«; »Bargans 
Jugend«; »Geschichten von St. Patriks Weihnachtskrippe«; »Die Omelette oder: 
John Russels letzte Worte«; »Die Geschichte des Machandelbaums«; »Aben- 
teuer«; »Der Tiger«; »Tod des Cesare Malatesta«; »Wissen Sie, unsre Generation« 
Quelle: Brecht: Werke. Prosa 4, S. 53-188. 


Kurzgeschichten Bertolt Brechts 1933-1940 (Datensatz »B_Prosa 33-40«)“® 
»Zweifel am Mythos«; »Berichtigungen alter Mythen«; »Der Tod der Frommen«; 
»Durch bestimmte Weglassungen werden Geschichten merkwürdig«; »Das barm- 
herzige Rote Kreuz«; »Mesalliance«; »Feine Kampfmittel«; »Das große Essen«; 
»Wenn einer etwas will, muß er es einem anderen nehmen«; »Streitigkeiten«; 
»Die Denkaufgabe«; »Die Geschichte von I.«; »Eine Frau«; »Wer ist der Autor 
von«; »Wenige wissen heute«; »Semmelweis«; »Semmelweis (zweite Version)«; 
»Herrn Schicks Schwester«; »Die Rundköpfe und die Spitzköpfe«; »Michael Kohl- 
haas«; »Die Horst-Wessel-Legende«; »Im Kino«; »Gemeinnutz geht vor Eigen- 
nutz«; »Unten am Fluß lag eine große Stadt«; »Der Unersättliche«; »Monographie 
des unbekannten Kulturträgers«; »Die Judith von Saint Denis«; »Für die Suppe«; 
»Beaumarchais«; »Ein Irrtum«; »Die Fliege«; »Der Gallische Krieg oder Die Ge- 
schäfte des Herrn J. Caesar«; »Gaumer und Irk«; »Der Gott und die Bajadere«; 
»Der Gott und die Bajadere (zweite Version)«; »Die Eroberung von Byzanz durch 
Robert Guiskard«; »Die Trophäen des Lukullus«; »Vi vill flyga«; »In der Erwar- 
tung großer Stürme« 

Quelle: Brecht: Werke. Prosa 4, S. 338-345 sowie S. 361-438. 


68 Die Kurzgeschichten Safety First und Der Arbeitsplatz aus dem Band Prosa 4 wurden im Da- 
tensatz nicht berücksichtigt, da sie in der Auswahl Willetts Verwendung finden. 
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Kurzgeschichten Bertolt Brechts 1940-56 (Datensatz »B_Prosa 40-56«)® 
»Eßkultur«; »Die Judith von Shimoda (im Film)«; »Der Hamlet der Weizenbörse«; 
»Horoskop«; »On the eve of their marriage«; »Valse triste«; »Rich Man’s Friend«; 
»The Children’s Crusade«; »The King’s Bread«; »Bermuda Troubles«; »Uncle 
Sam’s Property«; »Boy meets Girl, so what?«; »Das Land der mißglückten Unter- 
nehmungen«; »Geld ist teuer«; »Timothy Potter, erstklassiger Verkäufer«; »Der 
Arzt Hunain und der Kalif«; »Giulio«; »Das Experiment«; »Hero’s Wife«; »History 
of J«; »My most unforgettable Character«; »Caesars letzte Tage«; »Caesars letzte 
Tage (Zweite Version)«; »The Senator’s Conscience«; »Die seltsame Krankheit des 
Herrn Henri Dunant«; »Die langsame Anna«; »Silent Witness«; »The Goddess of 
Victory«; »Als die Getöteten begraben waren«; »Die Frau des Richters«; »Lady 
Macbeth of the Yards«; »Maevenkuusen, Physiker«; »Brief des Soldaten S. B. über 
den Kunstgenuß an einem realen Erlebnis«; »Der Mantel«; »Offenbachs »Hoff- 
manns Erzählungen« in einer neuen Version«; »Aus dem Zirkusleben«; »Der 
große Clown Emaél«; »Eulenspiegel«; »Berliner Thema (auskonstruiert)«; »Und 
die Heere der Gideoniter«; »Der Müller von Sanssouci«; »Wanderungen der Ge- 
rechtigkeit«; »Schwierige Musik«; »Ein Liebhaber sagte von seiner Geliebten«; 
»Der Liebhaber sagte von seiner Eifersucht«; »Der kaukasische Kreidekreis«; »In 
den neunziger Jahren« 

Quelle: Bertolt Brecht: Werke. Große kommentierte Berliner und Frankfurter Aus- 
gabe in 30 Bänden, Bd. 20: Prosa 5. Geschichten, Filmgeschichten, Drehbücher 
1940-56, hg. v. Werner Hecht, Jan Knopf, Werner Mittenzwei und Klaus-Detlef 
Müller. Berlin, Weimar, Frankfurt a. M. 1997, S. 7-211. 
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Friedrich Michael Dimpel 
Narratologische Textauszeichnung in Mare 
und Novelle 


Abstract: In this paper, I suggest a system of annotation designed for the use in 
Computational Narratology. The levels of annotating I use in my study are as fol- 
lows: space, time, focalisation, reported speech, narrator’s speech, relation of the 
speech of a character/of the narrator to a certain character, evaluative remarks, 
negation, figurative speech, ambiguity. Alongside with the tagset, the guidelines 
for annotation are being refined in order to enable different persons to achieve 
consistent results (inter-annotator-agreement). In doing so, narratological mod- 
els will be systematically reassessed and refined. The aim of this project is there- 
fore to annotate about 100 short narratives. The corpus will render possible a 
great variety of follow-up aims and objectives. It permits systematic access to cor- 
pus segments annotated in the same way. Using »Studentenabenteuer A< and 
»Decamerone« IX,6, I discuss a number of details and problems in narratological 
annotation. Finally, I present some examples of quantitative analysis using 
among others MTLD and Social Network Analysis. 


1 Quantitative Limitierungen und Computational 
Narratology 
Digitale Korpora können aufgrund der Fortschritte in den Digital Humanities mit 


zahlreichen quantitativen Analyseverfahren untersucht werden:' Im Rahmen der 
Stilometrie beschäftigen sich Computerphilologen etwa mit Fragen der Autor- 


1 Vgl. exemplarisch Fotis Jannidis: »Methoden der computergestiitzten Textanalyse«, in: Me- 
thoden der literatur- und kulturwissenschaftlichen Textanalyse. Ansätze - Grundlagen - Modell- 
analysen, hg. v. Vera Nünning und Ansgar Nünning. Stuttgart 2010, S. 109-132. Zudem erfolgt 
auch die Textedition zunehmend mehr mit innovativen digitalen Methoden, vgl. etwa Malte Reh- 
bein: »Vom Nutzen digitaler Editionen - das Göttinger »kundige bok««, in: Bibliothek und Wis- 
senschaft 42 (2009), S. 7-28. 
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schaftsattribution oder der Werkchronologie sowie mit Fragen nach den Spezi- 
fika von Gattungen oder Epochen.’ Neben der Stilometrie erfährt derzeit die Com- 
putational Narratology intensive Aufmerksamkeit.’ Die vorliegende Projektstudie 
ist im Kernbereich der Computational Narratology situiert, es handelt sich dabei 
um Grundlagenforschung, die auch weitere vielfaltige stilometrische Untersu- 
chungen ermöglichen soll. 

Meist ist ein vollständiger Text oder ein Abschnitt — beispielsweise ein Kapi- 
tel eines Romans - Gegenstand von digitalen Studien. Die Möglichkeiten für voll- 
automatische Analysen enden jedoch dort, wo spezifische Textebenen in den 
Blick zu nehmen wären; etwa dann, wenn Differenzen zwischen Erzählerrede 
und Figurenrede examiniert werden sollen. Derzeit ist es nicht möglich, verschie- 
dene Ausprägungen von gesprochener oder gedachter Figurenrede (direkte oder 
indirekte Redewiedergabe) automatisch zu ermitteln‘ und sie der jeweiligen Fi- 
gur zuzuweisen — auch deshalb, weil die gleiche Figur mit verschiedenen Be- 
zeichnungen aufgerufen werden kann (bspw.: »Orgeluse« oder »diu herzoginne« 


2 Vgl. etwa John F. Burrows: »Questions of Authorship. Attribution and Beyond. A Lecture De- 
livered on the Occasion of the Roberto Busa Award«, in: Computers and the Humanities 37 (2003), 
S. 5-32; Hugh Craig: »Stylistic Analysis and Authorship Studies«, in: A Companion to Digital Hu- 
manities, hg. v. Susan Schreibman, Ray Siemens und John Unsworth. Oxford 2004, S. 273-288, 
http://www.digitalhumanities.org/companion (24. Januar 2015); Andreas Büttner, Friedrich Mi- 
chael Dimpel, Stefan Evert, Fotis Jannidis, Steffen Pielström, Thomas Proisl, Isabella Reger, 
Christof Schöch und Thorsten Vitt: »»Delta« in der stilometrischen Autorschaftsattribution«, in: 
Konferenzabstracts DHd 2016. Modellierung - Vernetzung - Visualisierung. Die Digital Humanities 
als fächerübergreifendes Forschungsparadigma, hg.v. Elisabeth Burr. Leipzig 2016, S. 61-74, 
http://dhd2016.de (08. September 2016). 

3 Vgl. etwa das Exposé von Jan Christoph Meister, Fotis Jannidis und Christof Schöch: »Ele- 
mente einer Roadmap für das Forschungsfeld »>Computational Narratology«« zum Workshop auf 
der DHd-Tagung 2015; online unter https://www.conftool.pro/dhd2015/index.php?page=brow- 
seSessions&form_session=5&presentations=show (27. Januar 2015); zum Begriff vgl. etwa Inder- 
jeet Mani: »Computational Narratology«, in: The living handbook of narratology, hg.v. Peter 
Hühn, Jan Christoph Meister, John Pier und Wolf Schmid. Hamburg 2013, S. 1-12, 
http://www.lhn.uni-hamburg.de/article/computational-narratology (24. Januar 2015). 

4 Annelen Brunner: Automatische Erkennung von Redewiedergabe. Ein Beitrag zur quantitativen 
Narratologie. Berlin, Boston 2015 (Narratologia 47), hat ein Verfahren vorgestellt, das direkte, 
indirekte und erlebte Rede in nhd. Texten automatisch analysiert. Dabei setzt Brunner sowohl 
aufregelbasierte computerlinguistische Verfahren als auch auf Maschinelles Lernen. Die besten 
Ergebnisse werden bei direkter Rede mit einer Fehlerquote von 13% erzielt (F1-Wert; »precision« 
und »recall« kombiniert). So beeindruckend diese Ergebnisse aus computerlinguistischer Sicht 
sind, setzen narratologische Auswertungen doch eine geringere Fehlerquote voraus. Für frühere 
Sprachstufen ist noch keine automatische Analyse von Figuren- und Gedankenrede in Sicht. 
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im »Parzival«), die gleiche Bezeichnung kann auf verschiedene Figuren referieren 
(»diu herzoginne« kann Orgeluse oder Jeschute bezeichnen).° 

Wenn jedoch verschiedene Textschichten manuell annotiert werden, können 
solche Untersuchungen äußerst ertragreich sein. Ein Beleg dafür sind die Studien 
von Burrows zu Jane Austen: Mithilfe statistischer Analysen zu hochfrequenten 
Wörtern kann Burrows nachweisen, dass die gesprochene Figurenrede der jewei- 
ligen Figuren erheblich variiert; Figurenrede unterscheidet sich zudem auch sig- 
nifikant von der Erzählerrede. Die Sonderstellung einzelner Figuren bei Austen 
lässt sich auch an Besonderheiten des Figuren-Idiolekts nachweisen.° 

Die Arbeiten von Meister zu »Handlung, »Ereignis< und »Zeit« beruhen im ers- 
ten Schritt auf einer Textannotation, die in einem zweiten Schritt ausgewertet 
wird.’ Mit CATMA wurde in Hamburg eine webbasierte Arbeitsumgebung für kol- 
laboratives Annotieren etabliert, in der Zeitstrukturen abgebildet werden. Diese 
Daten gehen in das Folgeprojekt HeureCléa als Trainingskorpus für Maschinelles 
Lernen ein; dort werden dem Anwender automatisiert Annotationsvorschläge zu 
Texten, die noch nicht annotiert sind, unterbreitet, die er akzeptieren oder abän- 
dern kann.® 


5 Fotis Jannidis hat auf der DHd-Jahrestagung 2015 in Graz berichtet, dass neue Algorithmen 
bei der Named-Entity-Recognition nun zu einer Erkennungsrate >85% bei nhd. Texten führen 
(F1-Wert). 

6 John F. Burrows: Computation into Criticism. A Study of Jane Austen’s Novels and an Experi- 
ment in Method. Oxford 1987; vgl. zur Textauszeichnung S. 6-10. Um eine statistische Auswer- 
tung zu ermöglichen, hat Burrows zunächst das Korpus aufbereitet und Figurenrede sowie er- 
lebte Rede ausgezeichnet. Wie wichtig eine Auszeichnung etwa von verschiedenen Formen der 
Redewiedergabe wäre, betonen Fotis Jannidis, Gerhard Lauer und Andrea Rapp: »Hohe Romane 
und blaue Bibliotheken. Zum Forschungsprogramm einer computergestützten Buch- und Narra- 
tologiegeschichte des Romans in Deutschland (1500-1900)«, in: Literatur und Literaturwissen- 
schaft auf dem Weg zu den neuen Medien, hg. v. Lucas Marco Gisi, Jan Loop und Michael Stolz. 
germanistik.ch 2006, S. 2 und S. 12, http://www.germanistik.ch/publikation.php?id=Hohe_Ro- 
mane_und_blaue_Bibliotheken (24. Januar 2015). 

7 Vgl. insbes. Jan Christoph Meister: Computing Action. A Narratological Approach. Berlin, New 
York 2003 (Narratologia 2), S. 199-255; Jan Christoph Meister: »Computational Narratology« 
oder: Kann man das Erzählen berechenbar machen?«, in: Erzählen, Archivieren, Beschreiben, 
hg. v. Corinna Müller und Irina Scheidgen. Marburg 2007 (Schriftenreihe der Gesellschaft für 
Medienwissenschaft 5), S. 19-39, hier, S. 29; Jan Christoph Meister: »The Temporality Effect. To- 
wards a Process Model of Narrative Time Construction«, in: Time. From Concept to Narrative Con- 
struct: A Reader, hg. v. dems. und Wilhelm Schernus. Berlin, Boston 2011 (Narratologia 29), 
S. 171-216. 

8 Zu CATMA und heureCLEA vgl. Evelyn Gius und Janina Jacke: »Informatik und Hermeneutik. 
Zum Mehrwert interdisziplinärer Textanalyse«, in: Grenzen und Möglichkeiten der Digital Huma- 
nities, hg. v. Constanze Baum und Thomas Stacker. 2014 (ZfdG-Sonderband 1), www.ZfdG.de 
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Auch wenn die »hohe Präzision der strukturalistischen Narratologie« com- 
puterphilologische Zugriffe zu ermöglichen scheint, sind digitale Studien im Feld 
der Narratologie bislang relativ selten:” Überwiegend stehen bei quantitativen 
Studien lexikalische Textmerkmale (etwa bei Burrows’ Delta) im Mittelpunkt wie 
auch bei Analysen zu Funktionswörtern, Hapax Legomena, Kollokationen und 
n-Grammen.'° Der Aufwand, eigens für eine spezifische Fragestellung und für 
eine spezifische Methode ein Korpus manuell aufzubereiten, ist enorm; er kann 
oft aus ökonomischen Gründen nicht geleistet werden. Studien, die auf narrato- 
logischen Unterscheidungen oder Modellen wie Figurenrede/Erzählerrede beru- 
hen, haben, wie die Studien von Burrows und Meister illustrieren, jedoch bislang 
eine solche manuelle Korpusaufbereitung zur Voraussetzung. 

Vorgeschlagen wird daher, ein diachron angelegtes Korpus von Kurzerzäh- 
lungen systematisch narratologisch auszuzeichnen - jedoch nicht mit Blick auf 
eine einzelne Fragestellung und auf eine konkrete Analysemethode, vielmehr 
wird hier eine generische Konzeption verfolgt, bei der Nachnutzbarkeit im Zen- 
trum steht: Die Annotation erfolgt im Sinne einer Grundlagenarbeit für multiple 
Fragestellungen und multiple Methoden, die vielfältige Anschlussforschungen 
ermöglichen. Das Korpus erlaubt die Bearbeitung von Fragestellungen, die der- 
zeit noch nicht absehbar sind, zudem können die Korpusdaten auch neue Frage- 
stellungen generieren. Ein solches Korpus ist bislang ebenso wenig vorhanden 
wie eine narratologische Annotationskonzeption jenseits von Redewiedergabe 


(24. Januar 2015) sowie Thomas Bögel, Michael Gertz, Evelyn Gius, Janina Jacke, Jan Christoph 
Meister, Marco Petris und Jannik Strötgen: »Gleiche Textdaten, unterschiedliche Erkenntnis- 
ziele? Zum Potential vermeintlich widersprüchlicher Zugänge zu Textanalyse«, in: DHd 2015: 
Digital Humanities im deutschsprachigen Raum. Graz 2015, http://gams.uni-graz.at/archive/ob- 
jects/o:dhd2015.nachlese.vortragsfolien/methods/sdef:HTML/get (06. Juni 2017). 

9 Bei der praktischen Anwendung narratologischer Explikationen ergeben sich gerade im Rah- 
men einer Textannotation rasch Probleme. Zitat: Fotis Jannidis: »Computerphilologie«, in: 
Handbuch Literaturwissenschaft. Band 2: Methoden und Theorien, hg. v. Thomas Anz. Stuttgart, 
Weimar 2007, S. 27-40, hier S. 35; vgl. zuletzt jedoch Evelyn Gius: Erzählen über Konflikte. Ein 
Beitrag zur digitalen Narratologie. Berlin, Boston 2015 (Narratologia 46). 

10 Vgl. Fotis Jannidis: »Computerphilologie«, S. 35. 
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und Zeit." Ein geeignetes XMI-Tagset muss eigens entwickelt werden.” TEI-Kom- 
patibilität wird angestrebt.” 


2 Auszeichnen 


1) Figur am Fokusort: <FigurFokusort> 

<FigurFokusort>" verzeichnet die Figuren, die sich an dem Ort aufhalten, von 
dem erzählt wird. Attribute sind @Bezeichnung (Figurennamen), @Figuren- 
gruppe (fakultativ), @level (fakultativ; Grad der Verschachtelung, falls ein Be- 
richt über ein Geschehen an einem anderen Ort in eine Figurenrede/Gedanken- 
rede eingebettet ist), ” @non-fact (fakultativ, falls eine Figur oder ein Erzähler auf 
Figuren an anderem Ort Bezug nimmt, die sich nicht faktisch dort befinden). Bei- 
spiel: <FigurFokusort Bezeichnung="Ritter; Tochter" Figurengruppe="">Nü lac 
ein juncvrouwelin, edel, schoene unde fin, [...] </FigurFokusort> (‚Häslein« 61-186). 
Solche Informationen können eine Grundlage sein für Studien mit raumtheoreti- 
schen Fragestellungen - zumal in Verbund mit dem Element <BewegungLokal>, 
mit dem etwa Untersuchungen zu Transgressionen und statischen bzw. dynami- 
schen Figuren möglich werden: 


2) Lokale Bewegungen: <BewegungLokal> 
Bei <BewegungLokal> geht es um lokale Bewegungen: Wechsel des Erzählortes; 


11 Evelyn Gius und Janina Jacke: Zur Annotation narratologischer Kategorien der Zeit. Guidelines 
zur Nutzung des CATMA-Tagsets. Hamburg 2014, http://heureclea.de/publications/guide- 
lines.pdf (09. März 2015); Brunner: Redewiedergabe. 

12 Zu narratologischen Desideraten von TEI-P5 vgl. Fotis Jannidis: »TEI in a Crystal Ball«, in: 
Literary and Linguistic Computing 24 (2009), S. 253-265, hier S. 261f. 

13 Eine TEI-Integration ist auch via ODD möglich; vgl. http://www.tei-c.org/Guidelines/Custo 
mization/odds.xml (13. März 2015). 

14 Deutsche Bezeichnungen stehen bei neuen Tags, englische bei Tags, die aus TEI-P5 oder aus 
Annelen Brunner: Redewiedergabe, übernommen werden. Ich stelle dieses Projekt ebenfalls vor 
in »Novellenschätze narratologisch auszeichnen und analysieren am Beispiel Victor von Schef- 
fels »Hugideo« und der sozialen Netzwerkanalyse«, in: LiLi 47 (2017), S. 87-108, DOI:10.1007/s41 
244-017-0044-8, sowie in »Narratologische Textauszeichnung in Märe und Novelle. Mit Annota- 
tionsbeispielen und exemplarischer Auswertung von »Sperber< und »Häslein« durch MTLD und 
Sozialer Netzwerkanalyse«, in: ZfdG, vsl. 2017. Da es sich bei Tagset und Workflow um den glei- 
chen Gegenstand handelt, bestehen in diesen Passagen große und teils wörtliche Übereinstim- 
mungen mit diesen Beiträgen. 

15 Zu @level und @non-fact vgl. Brunner: Redewiedergabe, S. 72-76; hier zur Redewiedergabe. 
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Fortbewegung, die einer Figur folgt. Attribute sind @Typ (Fokuswechsel | Fort- 
bewegung), @Bezeichnung (fakultativ), @level, @non-fact (fakultativ, s. 0.). Bei- 
spiel: <BewegungLokal Typ="Fortbewegung" Bezeichnung="Ritter">alsus reit er 
alzehant [...].</BewegungLokal> (Häslein« 56-60). 


3) Abweichungen vom linearen Zeitverlauf <Zeit> 

Bei <Zeit> werden Abweichungen vom linearen Zeitverlauf erfasst. Attribute sind 
@Typ (Prolepse_Beginn | Prolepse_Ende | Analepse_Beginn | Analepse_Ende| El- 
lipse | Pause), @level (fakultativ, s. 0.). Beispiel: <Zeit Typ="Pause">Tribe ich die 
zit vergebene hin, [...] </Zeit> (»Häslein« 1-20). Eine Annotation von temporalen 
Phänomenen findet sich etwa im CATMA-Kontext; hier wird eine schlankere Mo- 
dellierung verwendet.’ 


4) Fokalisierung <Fokalisiert> 

Welche Figur ist intern oder extern fokalisiert: <Fokalisiert>. Attribute: @Typ: (in- 
tern | extern | Paralipse | Paralepse), @Bezeichnung. Beispiel: <Fokalisiert Be- 
zeichnung="Tochter" Typ="intern">und dö diu juncvrouwe zart der sumerzite gin- 
ret wart, [...] daz lie diu juncvrouwe âne haz.</Fokalisiert> (»Häslein« 159-166). 
Auch in narratologischen Darstellungen finden sich metaphorische Begriffe; 
etwa »Mitsicht« bei Genette.” Grundlage für eine genauere narratologische Mo- 
dellierung und für die Entwicklung der Annotationsrichtlinien sind die Fokalisie- 
rungskonzepte bei Hübner und Dimpel." 


5) Figurenrede und Gedankenrede: <Redewiedergabe> 

Attribute sind @Typ (»Direkte Rede« | »Indirekte/erzählte Rede« | »Erlebte Rede« 
»Direkte Gedankenrede« | »Bewusstseinsdarstellung« | »Erlebte Gedanken- 
rede«), @Bezeichnung, @level, @non-fact (fakultativ, s. 0.),” @narr (fakultativ): 


16 Vgl. Gius, Jacke: Guidelines. 

17 Gérard Genette: »Diskurs der Erzählung - ein methodologischer Versuch«, in: ders: Die Er- 
zählung. Dt. Übersetzung von »Discours de récit« und »Nouvelle Discours de récit«. Aus dem Fran- 
zösischen v. Andreas Knop, hg. v. Jochen Vogt. München [1972] 1998, S. 134. 

18 Gert Hübner: Erzählform im höfischen Roman. Studien zur Fokalisierung im »Eneas«, im 
»Iwein« und im »Tristan«. Tübingen 2003 (Bibliotheca Germanica 44), S. 25-63; Friedrich Michael 
Dimpel: Die Zofe im Fokus. Perspektivierung und Sympathiesteuerung durch Nebenfiguren vom 
Typus der Confidente in der höfischen Epik des hohen Mittelalters. Berlin 2011 (Philologische 
Studien und Quellen 232), S. 17-38. 

19 Brunner: Redewiedergabe, S.72f. Die Funktion von @ambig und @prag wird hier mittels 
@cert und @cert_comment realisiert. 
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Grenzbereich zwischen Sprache und Handlung,” @border [fakultativ): Grenz- 
fälle von Rede (beten, zählen, singen etc.). Bei einem Wechsel der Erzählebene 
(Binnenerzählungen) wird weiterhin <embedded> verwendet.” Beispiel<Rede- 
wiedergabe Typ="Bewusstseinsdarstellung" Bezeichnung="Ritter">des vröute 
sich der ritter dö</Redewiedergabe> (Häslein 39f.). Das Auszeichnungsmodell 
von Brunner kann mit einigen Vereinfachungen übernommen werden, da hier 
nicht die gleiche Auszeichnungstiefe notwendig ist. 


6) Erzählerrede: <Erzählerrede> 

Bei <Erzählerrede> werden als die Attribute erfasst: @Typ: (»Bericht Figurenak- 
tivität« | »Sonstiger Bericht« | »Explanative Erzähleräußerung« | »Erzählerrefle- 
xion über erzählte Welt« | »Erzählerreflexion allgemein« | »Erzählerreflexion 
metanarrativ«); @Bezeichnung,” @non-fact (fakultativ, s. o.). Beispiel: <Erzaeh- 
lerrede Typ="Bericht Figurenaktivität" Bezeichnung ="Ritter">alsus reit er 
alzehant gegen eime dorfe hin, </Erzaehlerrede> (»Häslein« 56f.) Die narrative Er- 
zählerrede jenseits von Redewiedergabe wird differenziert in »Figurenaktivität« 
und »Sonstiger Bericht«. Die weitere Taxonomie folgt der Unterscheidung von 
Nünning;? zudem lässt sich hier auf die Annotationsrichtlinien von Gius / Jacke 
aufbauen.” 


7) Bezug von <Redewiedergabe> oder <Erzählerrede> auf Figur: <Figurenbe- 
zug> 

Bei <Figurenbezug> geht es um die Zuordnung des Inhalts einer <Redewieder- 
gabe> oder <Erzählerrede> zu einer Figur. Attribute sind @Unmittelbar (Bezeich- 
nung der Figur bei unmittelbarem Bezug), @Mittelbar (Bezeichnung bei mittel- 
barem Bezug), @Vorläufig_implizit (bei Bezug, der auf Kontiguität, Äquivalenz 
etc. beruht, der jedoch später explizit oder stark offensichtlich wird) und @Impli- 


20 @narr und @border nach Brunner: Redewiedergabe, S. 80f. sowie 82f.; @border hier jedoch 
ohne weitere Differenzierung mittels Werteliste (S. 87-89). Mit Hilfe von @non-fact, @border 
und @narr kann man Grenzbereiche als Grenzbereiche einer bestimmten Sorte auszeichnen. 

21 Brunner: Redewiedergabe, S. 91f. 

22 Bei Figurenaktivität erhält @Bezeichnung den Namen der Figur; sonst die Bezeichnung der 
Erzählinstanz. 

23 Ansgar Nünning: Grundzüge eines kommunikationstheoretischen Modells der erzähleri- 
schen Vermittlung. Die Funktion der Erzählinstanz in den Romanen George Eliots. Trier 1989 
(Horizonte 2), S. 51f. 

24 Gius, Jacke: Guidelines, S. 10-14. Die feingliedrige Unterscheidung von <information_retrie- 
val/writing_process>, <self_description>, <organization_of_discourse> und <address_to_the 
reader> wird zunächst zu <Erzählerreflexion metanarrativ> zusammengefasst. 


128 — Friedrich Michael Dimpel 


zit (bei Bezug, der auf Kontiguität, Aquivalenz etc. beruht); @non-fact (fakulta- 
tiv; s. 0.). Beispiel: <Figurenbezug Unmittelbar="Mutter; Tochter" Mittelbar="Rit- 
ter">des wart ir gelwez här zerrouft; darnäch ir liehten wangen begunde diu muoter 
zwangen |...]. </Figurenbezug> (‚»Häslein« 198-207). 

Hier geht es um den Gegenstand einer Äußerung: Figuren oder Erzähler kön- 
nen über eine andere Figur sprechen oder zu einer Figur; Figurenhandlungen 
können auf Figuren bezogen sein. Notiert wird, auf welche Figur Bezug genom- 
men wird. Wenn etwa alles Wollen und Streben des Protagonisten darauf ausge- 
richtet ist, die Liebe einer Dame zu erwerben, so ist ein solcher Text häufig aus 
der Perspektive des Protagonisten erzählt. Häufig hat die Dame selbst nur wenig 
Anteil an Erzähler- und Figurenrede, obwohl es stets um sie geht. Solche Daten 
sind bei kulturwissenschaftlichen Analysen interessant: Die Frage »Über wen 
wird gesprochen?« kann hier wichtiger werden als Genettes Frage »Wer 
spricht?«. Neben unmittelbaren Bezügen gibt es auch mittelbare: Figuren wen- 
den sich mitunter direkt an andere Figuren (Brautvater), um indirekt das eigent- 
liche Ziel (Gewinnung der Braut) zu erreichen. 


8) Evaluative Äußerungen: <Wertung> 

Bei <Wertung> wird Erzähler- oder Figurenrede mit evaluativen Äußerungen zu 
einer Figur erfasst. Attribute sind: @Wertende (Bezeichnung des Erzählers oder 
der evaluierenden Figur), @Gewertete (Bezeichnung), @Typ (positiv explizit | po- 
sitiv implizit | negativ explizit | negativ implizit), @level, @non-fact (fakultativ; 
s. 0.). Beispiel: dô wart dem ritter offenbär einer juncvrouwen lip gelobet vür ein 
élich wip, <Wertung Wertende="Erzähler" Gewertete="Verlobte" Typ="positiv ex- 
plizit">diu was schoene unde kluoc,</Wertung> (»Häslein« 325). Erfasst werden ex- 
plizite und implizite Bewertungshandlungen nach Winko.” 


9) Negation des Aussagegehalts: <Negation> 

Zu <Negation> lauten die Attribute @Typ (»einfach« | »doppelt positiv« | »doppelt 
negativ« | »dreifach«). Beispiel <Negation Typ="doppelt negativ">ich engelebete 
nie sô lieben tac.</Negation> (»Häslein« 82). In quantitativen Studien kann es von 
Interesse sein, ob ein Wort wie »Treue« in Negation steht. Da in mittelhochdeut- 
schen Texten eine Negation mit zwei Negationswörtern realisiert werden kann, 
wurde der Wert »doppelt negativ« eingeführt. 


25 Simone Winko: Wertungen und Werte in Texten. Axiologische Grundlagen und literaturwis- 
senschaftliches Rekonstruktionsverfahren. Braunschweig 1991 (Konzeption Empirische Litera- 
turwissenschaft 11), S. 134f. 
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10) Uneigentliche Rede: <UneigentlicheRede> 

Mit <UneigentlicheRede> werden Abweichungen von literalem Sinn (metaphori- 
sche, ironische Rede etc.) annotiert. Attribut: @Bezeichnung. Beispiel: <Unei- 
gentlicheRede Bezeichnung="Erzähler"> dô riet ime sin herze stzte,</Uneigentli- 
cheRede> (»Haslein< 44). 


11) Allgemeine Attribute 

@Datum und @Bearbeiter werden automatisch ergänzt. In @Regel wird die ein- 
schlägige Annotationsregel festgehalten. In@comment können Annotationsent- 
scheidungen ggf. begründet werden. Zudem werden alle Figurenreferenzen wie 
Namen oder Pronomina annotiert. Das TEI-P5-Attribut @cert ist als fakultatives 
Attribut bei allen Elementen vorgesehen - z. B. als Attribut zu <FigurFokusort>, 
wenn nicht erzählt wurde, wann welche Figur den Raum verlassen hat. 


3 Ambiguität und Annotationsrichtlinien 


Textuelle Ambiguität und ambivalente Rezeptionsdispositionen in Texten haben 
Schriftgelehrte bereits in der Antike veranlasst, von einem mehrfachen Schrift- 
sinn auszugehen. Vertreter der Empirischen Literaturwissenschaft haben die Po- 
lyvalenzkonvention zu einem wesentlichen Merkmal literarischer Texte erklärt. 
Allerdings ist es ein erheblicher Unterschied, ob es um mehrdeutige Sinnange- 
bote oder um mehrere Zuordnungsmöglichkeiten einer mikrostrukturellen Pas- 
sage zu einer narratologischen Kategorie geht: Auch wenn kaum je ein »Inter-An- 
notator-Agreement« hinsichtlich des Sinngehalts eines Textes zu erwarten ist, 
sind die Probleme bei den hier skizzierten Kategorien deutlich geringer. Bei dem 
Versuch, narratologische Kategorien zu formalisieren, handelt es sich freilich 
nicht um eine voraussetzungsfreie Textbeschreibung:” Bereits der Umstand, 
dass auf die Frage »Was ist ein Wort?« verschiedene Antworten möglich sind, 
zeigt, dass auch konventionelle Literaturanalysen stets auf Vorannahmen beru- 
hen, auch wenn diese Vorannahmen häufig nicht explizit mitgeführt werden. In- 
sofern unterscheidet sich ein Annotationsprojekt von konventionellen Analysen 
u.a. dadurch, dass es hier notwendig wird, viele Vorannahmen und Festlegun- 
gen explizit festzuhalten. 


26 Vgl. Tom Kindt und Hans-Harald Müller: »Wieviel Interpretation enthalten Beschreibungen? 
Überlegungen zu einer umstrittenen Unterscheidung am Beispiel der Narratologie«, in: Regeln 
der Bedeutung. Zur Theorie der Bedeutung literarischer Texte, hg. v. Fotis Jannidis, Gerhard Lau- 
er, Matias Martinez und Simone Winko. Berlin, New York 2003 (Revisionen 1), S. 286-304. 
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Dass Texte polyvalent und ambig sein können, ist eine zentrale Herausforde- 
rung fiir Annotationsprojekte:” Eine Annotation geht mit einer Disambiguierung 
einher: es werden eindeutige Festlegungen getroffen;* auch die Dokumentation 
von Ambiguität ist eine eindeutige Festlegung. Weil in der Regel interpretative 
Annahmen in Annotationsentscheidungen eingehen, plädiert Meister im Rah- 
men des Crowd-Sourcing-Projektes dafür, dass die Textauszeichnung hermeneu- 
tisch produktive Ambiguität und Widersprüchlichkeit abbilden soll.” Während 
etwa Meister, Gius, Jacke und Brunner mit einer mehrfachen Auszeichnung auf 
diese Problemlage reagieren und mehrere Lesarten abbilden,” wird hier ange- 
strebt, nur eine Auszeichnung vorzunehmen, die gegebenenfalls als uneindeutig 
(@cert) markiert ist.” Ein einfaches Markup hat den Vorteil, dass der Code gut 
lesbar und übersichtlich bleiben kann. Darüber hinaus wird die Auswertung im 
Rahmen der Anschlussforschung durch schlankere Tools erleichtert — etwa bei 
der Sample-Erstellung für stilometrische Untersuchungen, bei denen unsichere 
Auszeichnungen ausgeblendet werden können. Dagegen geht das Abbilden von 
alternativen Auszeichnungsvarianten mit dem »disadvantage of cumbersome 
processing«” einher und soll daher möglichst vermieden werden. Angestrebt 
wird eine Auszeichnung zunächst in separaten Dateien je Element, die sich auto- 


27 Vgl. Jan Christoph Meister: »Crowd sourcing »true meaning«. A collaborative markup ap- 
proach to textual interpretation«, in: Collaborative Research in the Digital Humanities. Festschrift 
for Harold Short, hg. v. Willard McCarty und Marylin Deegan. Surrey 2012, S. 105-122, hier S. 105- 
117. Fotis Jannidis: »Polyvalenz - Konvention - Autonomie«, in: Regeln der Bedeutung. Zur The- 
orie der Bedeutung literarischer Texte, hg. v. ders., Gerhard Lauer, Matias Martinez und Simone 
Winko. Berlin, New York 2003 (Revisionen 1), S. 305-328, hier S. 323-327, zeigt, wie man der Po- 
lyvalenzfrage mit Hilfe des Konzeptes der Offensichtlichkeit begegnen kann. 

28 Vgl. Jerome McGann: »Marking Texts of Many Dimensions«, in: A Companion to Digital Hu- 
manities, hg. v. Susan Schreibman, Ray Siemens und John Unsworth. Oxford 2004, S. 198-217, 
http://www.digitalhumanities.org/companion (24. Januar 2015). 

29 Meister: »Crowd sourcing«, S. 121. 

30 Vgl. Jan Christoph Meister: »Tagging Time in Prolog: The Temporality Effect Project«, in: 
Literary and Linguistic Computing 20 (2005), S. 107-124, hier S. 117f.; Gius, Jacke: »Informatik 
und Hermeneutik«, Brunner: Redewiedergabe, S. 63-66. 

31 In @cert_comment wird die Art der Ambiguität bzw. der Grund für die unsichere Zuschrei- 
bung dokumentiert. Falls es sich entgegen der Zielsetzung nicht als praktikabel erweist, auf eine 
parallele Auszeichnung von mehreren Auszeichnungsoptionen zu verzichten, können die mit 
@cert ausgezeichneten Passagen rasch aufgesucht und alternativ ausgezeichnet werden; damit 
würde die Auszeichnung von mehreren separaten Dateien je Element oder eine Umstellung auf 
ein stand-off-markup nötig, wie es in CATMA etabliert ist. 

32 http://www.tei-c.org/release/doc/tei-p5-doc/en/html/NH.html, hier Abschn. 20.2 (13. März 
2015). 
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matisiert in eine fragmentierte Repräsentation der Daten überführen lassen - die- 
ser Weg dient einerseits der Lesbarkeit des Codes; andererseits wird damit das 
Problem der Überlappung umschifft.” 

Ziel ist ein einheitlich annotiertes Korpus, das auf einem »Inter-Annotater- 
Agreement: beruht. Dazu sind Annotationsregeln nötig: So, wie man in Editions- 
projekten Kollationierungsregeln festlegen muss, werden hier Annotationsregeln 
erarbeitet, die regelmäßig weiterentwickelt werden. Solche Regeln werden auch 
deshalb benötig, weil narratologische Definitionen häufig nicht so exakt formu- 
liert sind, dass sich Textphänomene damit eindeutig einordnen lassen. Zu erwar- 
ten ist, dass diese Annotationsrichtlinien über einen langen Zeitraum weiterent- 
wickelt werden müssen. Darin liegt jedoch ein Vorteil, denn im Prozess der 
Entwicklung der Annotationsrichtlinien erwarte ich Erkenntnisse über mögliche 
narratologische Modellierungen und über die Probleme, die mit der Anwendung 
von narratologischen Modellierungen auf historische Texte einhergehen. Modell- 
kreation und Modellkorrektur sind, so Willard McCarty, bei computerphilologi- 
schen Studien nicht nur ein Standardprocedere; vielmehr trägt die Modellmodi- 
fizierung zentral zum Erkenntnisgewinn bei.” 

Insoweit bei Entscheidungen nicht auf interpretative Momente verzichtet 
werden kann, sollen solche Interpretationsentscheidungen möglichst bei der 
Formulierung der Annotationsrichtlinien stattfinden und nicht bei der konkreten 
Textauszeichnung. Die einzelne Annotationsentscheidung kann so in Überein- 
stimmung mit den Richtlinien erfolgen. Falls dies gelingt, kann eine Teilstrecke 
der Annotation als empirisch beschrieben werden: die Anwendung der Richtlinie 
auf ein Textsegment.” Dieses Verfahren führt dazu, dass in die Annotationsricht- 


33 Neben einer Auszeichnung mit leeren Elementen (milestones) und stand-off-markup kann 
das Problem einer überlappenden Annotation durch separates oder fragmentiertes Markup ge- 
löst werden; vgl. den Abschnitt »20 Non-hierarchical Structures« der TEI-Guidelines; zur Sepa- 
rierung hier 20.1 und zur Fragmentierung 20.3, http://www.tei-c.org/release/doc/tei-p5- 
doc/en/html/NH.html (13. Marz 2015). 

34 Willard McCarty: »Modeling: A Study in Words and Meanings«, in: A Companion to Digital 
Humanities, hg. v. Susan Schreibman, Ray Siemens und John Unsworth. Oxford 2004, S. 254- 
270, hier S. 258, http://www.digitalhumanities.org/companion (24. Januar 2015). Ausführlich 
zum Erkenntnisgewinn durch »modeling« Willard McCarty: Humanities Computing. London, New 
York 2005, insbes. S. 23-72. 

35 Vgl. zu empirischen Teilstrecken Friedrich Michael Dimpel: »Der Computerphilologe als In- 
terpret - ein Teilzeit-Empiriker?«, in: Literatur interpretieren: Interdisziplinäre Beiträge zur The- 
orie und Praxis, hg. v. Jan Borkowski, Stefan Descher, Felicitas Ferder und Philipp Heine. Müns- 
ter 2015, S. 339-359. 
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linien interpretative Entscheidungen eingehen, die einerseits auf narratologi- 
schen Forschungsergebnissen beruhen, die jedoch andererseits auch Spezifika- 
tionen und Setzungen enthalten, die sich in der Annotationspraxis ergeben. 
Diese Entscheidungen sind in den Annotationsrichtlinien dokumentiert und so- 
mit kontrollierbar; sie dienen der Einheitlichkeit im Annotationsvorgang. Ein 
zentrales Kriterium ist Konsistenz: Eine einzige »richtige« Annotation kann es 
ebenso wenig geben, wie es etwa eine einzige richtige literaturwissenschaftliche 
Analyse etwa zur Fokalisierung einer Textpassage geben kann: Wenn man sich 
fiir Genettes Modell entscheidet, wird man zu anderen Ergebnissen kommen als 
mit Bals Fokalisierungsmodell. 

Angaben zum Bearbeiter, zum Bearbeitungsdatum und zur angewendeten 
Annotationsrichtlinie werden im XML-Code dokumentiert. Wenn im Annotati- 
onsvorgang auffallt, dass die narratologische Modellierung und die Annotations- 
richtlinien modifiziert werden miissen, kann mit Hilfe dieser Dokumentation 
rasch auf Falle zugegriffen werden, die nach der Regelkorrektur neu zu annotie- 
ren sind. Zudem kann das bislang annotierte Material auch als Fallsammlung die- 
nen, an der sich ein Annotator orientieren und eine konkordante Auszeichnun- 
gen vornehmen kann. 


4 Eine Beispielstudie: »Studentenabenteuer A< 
und »Decameronex IX,6 


Bevor es im Weiteren anhand des »Studentenabenteuer A< (Mitte 13. Jahrhundert) 
und von »Decamerone« IX,6 um Annotationsprobleme gehen soll, sei kurz der In- 
halt der beiden Beispieltexte skizziert:* In beiden Texten geht es um das Motiv 


36 Textausgaben: Wilhelm Stehmann: Die mittelhochdeutsche Novelle vom Studentenabenteuer. 
Berlin 1909 (Palaestra 67) und Giovanni di Boccaccio: Das Dekameron. Aus dem Italienischen 
übertragen von Albert Wesselski. Band III. Leipzig “1912. Da hier die Darstellung von methodi- 
schen Problemlagen im Fokus steht, verwende ich in der Konzeptionsphase vorläufig eine neu- 
hochdeutsche Übersetzung; eine quantitative Auswertung lässt freilich Aussagen über die Über- 
setzung und nur eingeschränkt über Boccaccios Text zu. Zu beiden Texten vgl. Hans-Joachim 
Ziegeler: »Boccaccio, Chaucer, Maren, Novellen: >The Tale of the Cradle««, in: Kleinere Erzählfor- 
men im Mittelalter. Paderborner Colloquium 1987, hg. v. Klaus Grubmiiller, Peter L. Johnson und 
Hans-Hugo Steinhoff. Paderborn 1988, S. 9-31; Hans-Joachim Ziegeler: »Studentenabenteuer A 
und Bx (FM 129 u. 107)«, in: Kleinepik, Tierepik, Allegorie und Wissensliteratur, hg. v. Fritz Peter 
Knapp. Berlin, Boston 2013 (GLMF VI), S. 100-110; weiterhin Klaus Grubmiiller: Die Ordnung, der 
Witz und das Chaos. Eine Geschichte der europäischen Novellistik im Mittelalter: Fabliau — Märe 
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der verstellten Wiege: Ein junger Mann möchte mit einem Mädchen schlafen. 
Deshalb nimmt er gemeinsam mit einem Freund Quartier bei dem Vater des Mäd- 
chens, der nur über eine Schlafkammer verfügt. In dieser Kammer schläft der Va- 
ter in einem Bett mit seiner Frau, davor steht die Wiege mit dem Säugling. Die 
Tochter schläft in einem eigenen Bett, die beiden Freunde teilen sich ein drittes 
Bett. Der erste Freund schleicht sich nachts zu dem Mädchen und schläft mitihm. 
Die Ehefrau geht etwas später kurz aus dem Raum, weil ein Geräusch zu hören 
war. In dieser Zeit verstellt der zweite Freund die Wiege so, dass sie vor seinem 
Bett steht — bei Boccaccio aus Versehen, im mittelhochdeutschen Text absicht- 
lich. Die Ehefrau kehrt zurück, findet aber die Wiege nicht bei ihrem Bett; sie legt 
sich dann in das Bett, vor dem die Wiege steht, und sie ist durchaus angetan da- 
von, dass es dort zum Beilager kommt - allerdings ist sie der Meinung, sie würde 
mit ihrem Mann schlafen. 

Der Jüngling, der mit der Tochter geschlafen hat, kehrt danach zurück, er 
lässt sich aber ebenfalls durch die verstellte Wiege irritieren. Er legt sich zum Ehe- 
mann und berichtet über seinen Erfolg bei der Tochter - in der Meinung, er sei 
bei seinem Freund. Es kommt zum Streit und zu Handgreiflichkeiten, bevor es 
der Ehefrau gelingt, dem Mann zu suggerieren, es sei gar nichts passiert. Bei Boc- 
caccio wird der erste Jüngling als Schlafwandler ausgegeben; im mittelhochdeut- 
schen Text ist der Mann der Meinung, dass es die Mutter gewesen sei, die behaup- 
tet habe, mit ihrer Tochter intim gewesen zu sein, und dass sie völlig betrunken 
sei. Die Jünglinge stellen sich schlafend, so dass auch hier jede Konsequenz aus- 
bleibt. 


5 Annotationsbeispiele und Annotations- 
probleme 


A) Konkrete raumzeitliche Verortung bei <FigurFokusort> 

Beim Element <FigurFokusort> sollen die Figuren benannt werden, dieim Fokus 
stehen — prima facie ein einfaches Unterfangen. Doch Decamerone IX,6 beginnt 
denkbar allgemein: 


- Novelle. Tübingen 2006, S. 127-131; Susanne Reichlin: »Zeitperspektiven. Das Beobachten von 
Providenz und Kontingenz in der »Buhlschaft auf dem Baume«, in: Kein Zufall. Konzeptionen 
von Kontingenz in der mittelalterlichen Literatur, hg. v. Cornelia Herberichs und ders. Göttingen 
2010 (Historische Semantik 13), hier S. 245-251. 
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In der Ebene des Mugnone lebte, es ist noch nicht lange her, ein biederer Mann, der den 
Reisenden fiir ihr Geld zu essen und zu trinken gab; und obwohl er arm war und nur ein 
kleines Häuschen hatte, beherbergte er doch dann und wann im Notfalle, zwar nicht jeder- 
mann, aber doch manchen Bekannten. 


Es bleibt offen, wer genau in der Mugnone-Ebene anwesend war, zudem bleibt 
die Zeitangabe vage. Als Kriterium fiir das Element verwende ich eine konkrete 
zeitliche Verortung, hier wird das Tag <FigurFokusort> also nicht vergeben. Als 
man nach dem Abendessen zur Schlafkammer geht, heißt es: 


<FigurFokusort Bezeichnung="UNDEF"> Nun hatte der Wirt nur eine sehr kleine Kammer, 
worein er, so gut es sich hatte tun lassen, drei Betten gestellt hatte, zwei an die eine Seite, 
das dritte gegenüber an die andere, so daß nur so wenig Raum geblieben war, daß man 
gerade noch dazwischen durchgehn konnte. Von diesen drei Betten ließ der Wirt das am 
wenigsten schlechte für die beiden Freunde herrichten,</FigurFokusort> 


Hier ist unklar, wer tatsächlich damit betraut ist, die Schlafkammer herzurichten, 
und ob sich der Wirt und die Gäste ebenfalls bereits in der Schlafkammer befin- 
den. Auch wenn die raumzeitliche Verortung eindeutig ist, ist es nicht möglich, 
bestimmte Figuren auszuzeichnen: Als Wert wird »UNDEF« vergeben. 


B) Kleinteiliges Auszeichnen bei Redewiedergabe 

Das Ziel, eine möglichst eindeutige Auszeichnung zu erreichen, macht oft ein 
sehr kleinteiliges Taggen nötig (hier Synopse aus <Redewiedergabe> und <Erzäh- 
lerrede>): 


<Redewiedergabe Typ="Bewusstseinsdarstellung" Bezeichnung="Jü2"> Als das Adri- 
ano,</Redewiedergabe><Erzaehlerrede Typ="Sonstiger Bericht" Bezeichnung="Bin- 
nenerzähler"> der noch nicht eingeschlafen war, </Erzaehlerrede> <Redewieder- 
gabe Typ="Bewusstseinsdarstellung" Bezeichnung="Jü2"> merkte, </Rede- 
wiedergabe> <Erzaehlerrede Typ="Bericht Figurenaktivität" Bezeich- 
nung="Jü2">empfing er sie freundlich </Erzaehlerrede><Redewiedergabe Typ="Be- 
wusstseinsdarstellung" Bezeichnung="Jü2">und froh</Redewiedergabe><Erzaehler- 
rede Typ="Bericht Figurenaktivität" Bezeichnung="Jü2"> und lud ihr Schiffchen, 
</Erzaehlerrede><Erzaehlerrede Typ="Sonstiger Bericht" Bezeichnung="Binnener- 
zähler"> ohne ein Wort zu sagen, </Erzaehlerrede> <Erzaehlerrede Typ="Bericht 
Figurenaktivität" Bezeichnung="Jü2"> mehr als einmal voll </Erzaehlerrede><Re- 
dewiedergabe Typ="Bewusstseinsdarstellung" Bezeichnung="Mut">zu ihrem größten 
Vergnügen.</Redewiedergabe> 


Hier muss mitunter für ein einziges Wort wie »merkte« ein eigenes Tag gesetzt 
werden - dass Adriano »noch nicht eingeschlafen war«, ist Erzählerbericht. Dass 
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der Jüngling-2 die Mutter freundlich empfängt, ist eine Aktivität; bei dem folgen- 
den »und froh« handelt es sich dagegen um einen Blick ins Figureninnere.” Ein 
kleinteiliges Auszeichnen erlaubt hier eine sichere Auszeichnung. Kleinteiliges 
Auszeichnen ist jedoch nicht bei allen Elementen die Politik der Wahl: Beim Ele- 
ment <Figurenbezug> bietet sich eine gröbere Segmentierung an, weil es oft um 
srößere Bezüge auf Gründe und Ziele geht — weite Teile der Handlungen und der 
listigen Figurenrede der Jünglinge sind etwa auf das Ziel ausgerichtet, mit der 
Tochter zu schlafen. 


C) Abgrenzungsprobleme bei Bewusstseinsdarstellung 

Als der zweite Jüngling mit der Mutter schläft, umschreibt der Erzähler den Vor- 
gang mit den Worten: der schuolsere vil gemeit / tete rehte als ein man / der vrou- 
wen wol dienen kan, / und lie si niht müezic ligen. (358-361) Das Wort gemeit kann 
aufgrund der semantischen Ambiguität als »wacker< oder »stattlich« übersetzt 
werden, jedoch auch als >freudig« oder »vergnügt«. Es kann also eine Schilderung 
»von außen« oder Bewusstseinsdarstellung vorliegen - oder beides zugleich. In 
den Annotationsrichtlinien lässt sich etwa festlegen, dass bei einer derartigen 
Ambiguität der Text sowohl in <Erzählerrede> als Erzählerbericht als auch in <Re- 
dewiedergabe> als Bewusstseinsdarstellung ausgezeichnet wird, obwohl sonst 
angestrebt wird, Textsegmente, die als Redewiedergabe annotiert sind, nicht 
auch zugleich als Erzählerrede zu annotieren. Alternativ wird geprüft, ob ein ei- 
genes Tag für Formulierungen vergeben wird, die hinsichtlich innerer bzw. äu- 
ßerer Figurenrede ambig sind. 


6 Möglichkeiten der quantitativen Auswertung 


Da die Annotationsrichtlinien noch in den Kinderschuhen stecken, sind Annota- 
tionen und Auswertungsdaten vorläufig. Sie sollen nur exemplarisch andeuten, 
welche Auswertungsmöglichkeiten und Fragestellungen denkbar sind. 


37 Diese vorläufige Auszeichnung bezieht sich auf den übersetzten Text. Bei Übersetzungen 
kommt es mitunter gerade bei einer knappen Erwähnung von inneren bzw. äußeren Vorgängen 
dazu, dass der Innen/Außen-Bezug nicht in gleicher Weise wie in der Ausgangssprache realisiert 
wird. 
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A) <Figurenbezug> 


Figurenbezug 
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Abb. 1: Jü1: Jüngling-1; Jü2: Jüngling-2; Toc: Tochter; Vat: Vater; Mut: Mutter. Werte: Wörterzahl 
in %; nur Hauptfiguren. 


Bei <Figurenbezug> hat die Mutter niedrige Werte; das Beilager ergibt sich recht 
kurzfristig. Die unmittelbaren Bezüge auf die Tochter sind ebenfalls relativ nied- 
rig, obwohl alle vorbereitenden Aktionen und Reden auf sie bezogen sind; diese 
Bezüge sind in den relativ hohen mittelbaren Bezügen repräsentiert. Während 
die Jünglinge als Subjektaktanten selbstverständlich im Vordergrund stehen, ist 
weniger selbstverständlich, dass zahlreiche Reden und Handlungen unmittelbar 
auf die Hindernisfigur (Vater) bezogen sind. 


Narratologische Textauszeichnung in Mare und Novelle — 137 


B) Fokalisierung 
Fokalisierung Studentenab. A Fokalisierung Decamerone IX,6 
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Abb. 2: Fokalisierung 


Bei Boccaccio herrscht eine relativ eindeutige Fokalisierungspolitik: Jüngling-1 
ist beinahe zur Hälfte allein die fokale Figur. Im mittelhochdeutschen Text ver- 
teilt sich die Fokalisierung gleichmäßiger auf mehrere Instanzen — auch auf die 
Väter der Jünglinge (Vati / Vat2); der zweite Jüngling ist hier viel häufiger eben- 
falls fokale Figur als bei Boccaccio. Während der Vater bei Boccaccio von der Fo- 
kalisierungspolitik deutlich benachteiligt wird (5,4%), ist die Hindernisfigur im 
mhd. Text in einer ähnlich Größenordnung fokalisiert wie die Väter der Jünglinge 
und häufiger als die Mutter. Das Interesse der Fokalisierungspolitik für die Toch- 
ter, um die es den Jünglingen eigentlich geht, ist nahezu auf die Beilagerszene 
begrenzt — mit Blick auf Gender-Fragen ein bemerkenswerter Befund, wenn auch 
kaum überraschend. Während sich insgesamt bei Boccaccio eine stärker hierar- 
chische Fokalisierungspolitik zeigt, ist der mittelhochdeutsche Text eher variabel 
fokalisiert und eher polyperspektivisch erzählt.” 


38 Die Summen der fokalen Passagen können mehr als 100% ergeben, da kollektive Fokalisie- 
rungen zugleich auf zwei Figuren den einzelnen Figuren jeweils separat zugerechnet werden. 
Bei Boccaccio sind einige Passagen nicht fokalisiert. 
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C) Auswertung: Figurenrede / Gedankenrede 
Redewiedergabe 
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Abb. 3: BWD: Bewusstseinsdarstellung; G-Rede: Gedankenrede 


Bei direkter Rede sind die hohen Werte von Jiingling-1 und Vater im mhd. Text 
auffällig.” Auf den ersten Blick hat es den Anschein, dass der Vater durch Be- 
grenzung der Gedankenrede bei Boccaccio weniger stark diskriminiert wird als 
im mhd. Text; allerdings zeigt das folgende Diagramm, dass der Anteil der inne- 
ren Figurenrede bei Boccaccio insgesamt fast doppelt so hoch ist wie im mhd. 
Text, der mehr von außen erzählt, so dass der Anteil der Innenweltdarstellung 
des Antagonisten in Relation zu den anderen Figuren auf niedrigem Niveau 
bleibt. 


39 Hier nur Level-1-Redewiedergabe bei Hauptfiguren; also ohne eingebettete Redewiedergabe. 
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Figurenrede versus Gedankenrede 
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Abb. 4: Figurenrede versus Gedankenrede 


Der mhd. Text besteht zur Halfte aus Wiedergabe von gesprochener Figurenrede; 
Boccaccio gibt der Innenweltdarstellung breiteren Raum. 


D) Wertungen 


Wertungen 
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Abb. 5: Q: Quelle / Bewertende Figur; G: Gewertete Figur. Werte: Anzahl Taginstanzen. Nur 
Wertungen des Erzählers von Hauptfiguren bzw. Hauptfiguren, die andere Hauptfiguren bewer- 
ten. Implizit und explizit aufsummiert; ohne non-fact="true". Kollektive Bewertungen sind bei 
den gewerteten Figuren jeweils separat ausgewiesen. 


140 — Friedrich Michael Dimpel 


Beide Erzähler bewerten durchgehend positiv — auch den Vater, wenn auch et- 
was seltener als andere Figuren. Bei den mittelhochdeutschen Figuren sind weit 
mehr positive Bewertungshandlungen zu verzeichnen; auch der Vater wird hier 
positiv bewertet. Negative Wertungen fehlen hier fast ganz, anders als bei Boc- 
caccio, bei dem weit mehr negative als positive Wertungen stehen. 


E) MTLD 
MTLD (Höherer Wert: höhere 
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Abb. 6: MTLD 


MTLD ist ein Indikator fiir die lexikalische Vielfalt, der anders als die Type-Token- 
Ratio längenunabhängig ist.” In beiden Texten variiert die Erzählerrede, 


40 Vgl. zu PhilipM. McCarthy: An Assessment of the Range and Usefulness of Lexical Diversity 
Measures and the Potential of the Measure of Textual, Lexical Diversity (MTLD). Dissertation 
Memphis. Available from Proquest Dissertations and Theses. (UMI No. 3199485), Philip M. 
McCarthy und Scott Jarvis: »MTLD, vocd-D, and HD-D: A validation study of sophisticated ap- 
proaches to lexical diversity assessment«, in: Behavior Research Methods 42 (2010), S. 381-392. 
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obschon sie hier um dixit-Formeln bereinigt wurde, weniger als die Figurenrede. 
Man könnte zunächst vermuten, dass der Erzähler die gebildeteren Studenten 
bzw. Edelmänner variationsreicher sprechen lassen würde als die Familie des 
Wirtes; diese Vermutung lässt sich jedoch nicht bestätigen. Während der Anta- 
gonist im mhd. Text sogar den höchsten MTLD-Wert verzeichnen darf, wird der 
Vater bei Boccaccio gegenüber der Mutter und, falls eingeschränkt vergleich- 
bar,” gegenüber Jüngling 1 benachteiligt. 


F) Literarische Netzwerkanalyse 


h 


je 
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Abb. 7: St.A - <FigurFokusort> 


41 Die schraffierten Werte zu Jül (D.IX,6) und zu Toc (St.A) sind nicht belastbar, da weniger als 
100 Wörter direkte Rede vorliegen (95 und 83 Wörter). Vgl. hierzu Rie Koizumi: »Relationships 
Between Text Length and Lexical Diversity Measures: Can We Use Short Texts of Less than 100 
Tokens?«, in: Vocabulary Learning and Instruction 1 (2012), S. 60-69, DOI:http://dx.doi.org 
/10.7820/vli.v01.1.koizumi. Für Toc und Jü2 liegen in D.IX,6 keine bzw. deutlich zu wenig direkte 
Rede vor. 
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hüsgesinde 


Abb. 8: St.A - <Redewiedergabe> & <Erzählerrede> => <Figurenbezug> 


In der literarischen Netzwerkanalyse werden die Figurenbeziehungen unter- 
sucht. Ähnlich wie in der Studie von Trilcke, die auf der gemeinsamen Bühnen- 
präsenz im Drama beruht,” lässt sich auswerten, welche Figuren gemeinsam am 
Fokusort präsent sind (links). Die vorliegenden Annotationen erlauben auch ei- 
nen Abgleich von annotierter Redewiedergabe und Erzählerrede mit annotiertem 
Figurenbezug, so dass auch abgebildet werden kann, welche Rede oder Figuren- 
aktivität auf welche Figur bezogen wird; möglich wird eine gewichtete und ge- 
richtete Analyse (rechts). Während bei <FigurFokusort> die Beziehungen zwi- 
schen Mutter und beiden Jünglingen gleich gewichtet sind - sie sind im gleichen 
Raum -, ist durch den annotierten Figurenbezug unterscheidbar, dass Jüngling 
1nur in 22 Taginstanzen auf die Mutter Bezug nimmt. Jüngling 2, der mit der Mut- 
ter schläft, nimmt dagegen in 33 Taginstanzen auf sie Bezug. Die Beziehungen 
von Nebenfiguren sind meist nicht erwidert. 


42 Peer Trilcke: »Social Network Analysis (SNA) als Methode einer textempirischen Literatur- 
wissenschaft«, in: Empirie in der Literaturwissenschaft, hg. v. Philip Ajouri, Katja Mellmann und 
Christoph Rauen. Münster 2013 (Poetogenesis. Studien zur empirischen Anthropologie der Lite- 
ratur 8), S. 201-247, ist grundlegend für die SNA im Bereich der deutschen Literatur. Vgl. weiter- 
hin Friedrich Michael Dimpel: »Novellenschätze narratologisch auszeichnen«. Im vorliegenden 
Plot wurden einige Nebenfiguren und Rahmenfiguren entfernt. 
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Abb. 9: D. IX,6 - <Redewiedergabe> & <Erzählerrede> => <Figurenbezug> 


Bei Boccaccio sind die Beziehungen von Jiingling 2 zur Tochter und vom Vater 
zur Tochter nicht erwidert; die Tochter ist weniger eingebunden. Auch hier ist die 
Beziehung von Jiingling 2 zur Mutter starker als die von Jiingling 1 (17 versus 11 
Taginstanzen). 

Bilanziert werden kann bisher, dass der Antagonist ausweislich der erfassten 
Daten nicht auf der Ebene der Wertungen diskreditiert wird; vielmehr wird er auf 
anderen Ebenen benachteiligt, etwa bei der Gedankenrede. Bei Boccaccio wird 
der Vater auch beim Variationsreichtum der Figurenrede und bei der Fokalisie- 
rung schlechter gestellt - anders im mhd. Text. Insgesamt können mit diesen 
Zahlen literaturhistorische Urteile wie etwa Neuschäfers Auffassung, dass Boc- 
caccio gegenüber älteren Formen eher zur Offenheit oder Multiperspektivität 
neige, nicht bestätigt werden.” Allerdings haben diese Ergebnisdaten noch vor- 
läufigen Charakter. 


7 Ausblick 


Wenn erst ein narratologisch annotiertes historisches Korpus vorliegt, werden 
vielfältige Studien zu multiplen Fragestellungen möglich, beispielsweise: Wie 
steht es um die diachrone Entwicklung von Fokalisierung, um die Eigenschaften 


43 Vgl. zu dieser Frage auch Friedrich Michael Dimpel: »Sprech- und Beißwerkzeuge, Kunst- 
handwerk und Kunst in Kaufringers »Rache des Ehemanns««, in: Daphnis 42 (2013), S. 1-27, ins- 
bes. S. 22-27. 
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von Erzähler- und Figurenrede, um chronologische und temporale Alternatio- 
nen, wie verteilt sich der Redebezug auf verschiedene Figurentypen wie Protago- 
nist oder Antagonist, wie steht es um quantitative Parameter etwa bei metapho- 
rischer Rede? Welche Spezifika können bei bestimmten Aktanten (Subjekt, 
Objekt, Adjuvant, Opponent) ausgemacht werden? Wie steht es um eine Korrela- 
tion kulturwissenschaftlich relevanter Terme und aktantieller Rolle? Möglich 
werden beispielsweise zahlreiche Gender-bezogene Auswertungen durch eine 
Sample-Analyse mit Figuren- oder Erzählerrede, die jeweils auf weibliche oder 
männliche Figuren bezogen ist oder durch eine Sample-Analyse mit Figurenrede, 
die jeweils von weiblichen oder männlichen Figuren stammt. Wie sind evaluative 
Äußerungen auf Erzählerrede und Figurenrede verteilt? Welche Aktanten bewer- 
ten bevorzugt, welche werden bevorzugt bewertet? Welche Unterschiede finden 
sich bei Wertungen in gesprochener und in innerer Figurenrede? Stimmen Be- 
wertungen von Erzählern und Figuren überein im Sinne eines monoperspektivi- 
schen Erzählens? Wie und wann verbreiten sich multiperspektivische Erzähl- 
techniken - wie steht es historisch wann um Schwarzweißmalerei? Lassen sich 
epochenspezifische Verteilungen ausmachen? Lassen sich Theoriebildungen 
überprüfen, die das Verhältnis vom Märe zur Novelle in Anschluss an die Unter- 
scheidungskriterien von Hans-Jörg Neuschäfer unter dem Gesichtspunkt eines 
»Noch-Nicht« beschreiben?“ 
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Kompetenzmodellierung im Fach Englisch: 
Literaturwissenschaft meets Psychometrie‘ 


Abstract: This chapter describes a novel approach to modelling text comprehen- 
sion competence in students in teacher training programmes which draws on the 
fields of literary studies and quantitative educational research. Our starting point 
is the assumption that the complexity of a text is what potentially poses a chal- 
lenge to comprehension, and that this complexity may be broken down into 
clearly definable and measurable aspects. We focus on literary texts, specifically 
poems, because these offer a particularly high density of complex textual phe- 
nomena such as irony, ambiguity and paradoxes. 

The research reported here is part of wider project which models the compe- 
tences of students. In this chapter, we draw on a study undertaken with a group 
of 426 mostly German students of English literature whose comprehension of 
Shakespeare’s Sonnet 43 was assessed by means of a test that had been devel- 
oped and refined as part of our project. We were able to show that prior experi- 
ence of reading Shakespeare was associated with stronger performance on the 
test, as was reading novels in English. A factor analysis suggested the existence 
of two factors, one comprising items which indicated local textual comprehen- 
sion and the other comprising items which covered a more global understanding 
of the poem. Such a two-factor structure reflects our theoretical assumptions con- 
cerning the comprehension process. These results indicate that our test is suita- 
ble for measuring literary text comprehension competence. 

Future work will concentrate on refining the test and on developing our ap- 
proach to modelling text comprehension further with a view to offering a concep- 
tualisation of text comprehension competence relevant for teacher training as 
well as teaching practice in schools. 


1 Wir danken allen Mitarbeiterinnen und Mitarbeitern des Teilprojekts 6 der Tübingen School 
of Education. 
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1 Einleitung/Vorbemerkungen 


Das Verstehen von literarischen Texten scheint intuitiv ein fiir quantitative An- 
sätze unzugänglicher Bereich der Literaturwissenschaft zu sein. Sind Hermeneu- 
tik und Quantifizierung nicht völlig inkompatibel? Wie soll man messen, ob und 
wie jemand einen Text versteht? Ist das nicht eine höchst individuelle Angele- 
genheit? Und was hätte man davon, wenn man Daten (Zahlen) zum Textverste- 
hen besäße? Wir versuchen in diesem Beitrag einige (Teil-)Antworten auf diese 
Fragen zu geben und zu zeigen, welchen Sinn Quantifizierung beim Textverste- 
hen haben kann, indem wir von einem interdisziplinären Tübinger Projekt be- 
richten, das im Rahmen der neu gegründeten Tübingen School of Education lite- 
raturwissenschaftliche Expertise im Bereich der Anglistik mit psychometrischer 
Expertise im Bereich der Empirischen Bildungsforschung verbindet. Die Stich- 
worte »School of Education« und »Bildungsforschung« lassen die Richtung er- 
kennen, aus der wir uns dem Thema nähern: Textverstehen wird unter dem Ge- 
sichtspunkt des Kompetenzerwerbs betrachtet. Wenn letzterer aber nicht bloß 
ein leerer Begriff sein soll, muss man eine Vorstellung davon gewinnen, was 
Kompetenz beim Textverstehen bedeutet und wie sie sich verändern kann. Es ist 
offensichtlich, dass Studierende und Schüler/innen Texte verstehen lernen sol- 
len, und zwar nicht etwa als Aneignung einer fixierten Deutung von Texten eines 
festgelegten Kanons, sondern als Fähigkeit, die sich an ganz unterschiedlichen 
Texten bewährt. Unsere Annahme besteht darin, dass sich die Komplexität eines 
Textes, seine Herausforderungen für das Verstehen, in bestimmbare Teilaspekte 
gliedern lässt. Aus dem Zusammenspiel der diese Aspekte betreffenden jeweili- 
gen Kompetenzen ergibt sich die Textverstehenskompetenz. Mit einer solchen 
Konzeption werden aber auch Verstehensprozesse modellier- und messbar. Im 
Folgenden sollen erste Anstrengungen beschrieben werden, eben jene Kompe- 
tenzbereiche zu definieren, messbar zu machen, zu erheben und die entwickelten 
Messinstrumente und Modelle kritisch zu evaluieren und zu verbessern. 

Der Beitrag der Empirischen Bildungsforschung zu diesem Vorhaben liegt 
vor allem darin, gängige Herangehensweisen bei der Testkonstruktion psycholo- 
gischer Messinstrumente anzubieten. Dazu gehören sowohl praktische Hilfen bei 
der Aufgabenkonstruktion als auch die Bereitstellung einer methodisch-statisti- 
schen Expertise, die für eine empirische Erprobung der konstruierten Messinstru- 
mente erforderlich ist. Dabei werden die fachspezifischen Aspekte und konkrete 
Machbarkeitsrestriktionen berücksichtig (z.B. eine kleine Zahl von Studierenden) 
und der Prozess der Kompetenzmodellierung diesen Anforderungen angepasst. 

Der fachwissenschaftliche Beitrag liegt vor allem darin, die zu erfassenden 
Kompetenzen inhaltlich zu definieren, abzugrenzen, Kompetenzbereiche und 
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-facetten und ihre Beziige zueinander zu beschreiben sowie etwaige Testaufga- 
ben im Dialog mit der Psychometrie zu konstruieren. Nach der empirischen Eva- 
luation der entwickelten Messmodelle und Messinstrumente optimieren die 
Fachwissenschaftlerinnen und Fachwissenschaftler auf Grundlage quantifizier- 
ter Giitebeurteilungen die Modelle und Messinstrumente. Mit der Zeit findet ite- 
rativ eine Ausdifferenzierung der zu untersuchenden Konzepte und ihrer Mess- 
methoden statt. 

Der im Zuge des Forschungsprojekts gewählte Fokus auf der literarischen 
Textverstehenskompetenz eignet sich für die Kompetenzmodellierung insbeson- 
dere deshalb, weil literarisches Textverstehen und sprachliches Verstehen einan- 
der beeinflussen. Literarische Texte sind häufig komplexe sprachliche Gebilde, 
die die Sprachkompetenz fördern, gleichzeitig ist eine gewisse sprachliche Kom- 
petenz Voraussetzung für literarisches Textverstehen. An dieser Stelle wird damit 
auch die Verbindung zwischen Literaturwissenschaft (als Fachwissenschaft) und 
dem praktischen Kontext von Lernsituationen an Schule und Universität deut- 
lich: gemeinsames Ziel ist »literacy«, also die Fähigkeit, Texte zu verstehen, 
ihnen zielgerichtet Informationen zu entnehmen und sie zu reflektieren und zu 
bewerten (so die Definition von reading literacy, deutsch Lesekompetenz, in der 
PISA-Studie’). Das Projekt hat demnach zum Ziel, Prozesse des Textverstehens 
nachzuvollziehen und transparent zu machen, d.h. zu klären, wie das Verstehen 
eines Textes zustande kommt, und zwar aus dem Zusammenspiel von Sprach- 
kompetenz (die Lexikon, Syntax und Semantik umfasst) und der Pragmatik eines 
Textes (etwa seinem Äußerungskontext). Fragen, die dabei eine Rolle spielen, be- 
treffen also das Verhältnis sprachlicher Kompetenz zu Formen kultureller Kom- 
petenz und Wissen, in denen es um die Verknüpfung eines Textgegenstandes mit 
anderen Gegenständen geht. Durch die Art der Aufgabenstellung, also die Aus- 
gestaltung des Stimulusmaterials, wird versucht, solche Unterschiede herauszu- 
arbeiten. Daraus folgt die Modellierung, wie der Erwerb dieser Kompetenzen 
strukturiert und vor allem überprüft werden kann. 

Im nächsten Abschnitt soll es zunächst darum gehen, unser Verständnis ei- 
ner »Textverstehenskompetenz« (als aktuelle Arbeitsdefinition) näher zu be- 


2 Cordula Artelt, Petra Stanat, Wolfgang Schneider, Ulrich Schiefele und Rainer Lehmann: »Die 
PISA-Studie zur Lesekompetenz: Überblick und weiterführende Analysen«, in: Struktur, Entwick- 
lung und Förderung von Lesekompetenz. Vertiefende Analysen im Rahmen von PISA 2000, hg. v. 
Ulrich Schiefele, Cordula Artelt, Wolfgang Schneider und Petra Stanat. Wiesbaden 2004, S. 139- 
168. 
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leuchten und zu definieren. Im Anschluss werden einige Probleme bei der Kon- 
struktion der Erhebungen zu dieser Kompetenz adressiert, die schließlich an- 
hand von Beispielen genauer verdeutlicht werden. 


2 Die Kompetenz des Textverstehens 


2.1 Überblick über den Kompetenzbegriff im Allgemeinen 


Der Begriff der Kompetenz wird seit fünfzig Jahren zunehmend in den Sozial- und 
Erziehungswissenschaften verwendet. Chomskys Theorie der Sprachkompetenz 
(1968) kann dabei als Ausgangspunkt der Popularität dieses Begriffs gesehen 
werden’, wobei er gleichzeitig auch in der Psychologie an Bedeutung gewann.“ 
Klieme und Hartig verweisen dabei auf die unterschiedliche und teilweise wider- 
sprüchliche Verwendung des Begriffs in verschiedenen Disziplinen und Anwen- 
dungsbereichen. Eine Definition findet sich bei Klieme und Leutner (2006): sie 
verstehen »Kompetenzen als kontextspezifische kognitive Leistungsdispositio- 
nen, die sich funktional auf Situationen und Anforderungen in bestimmten Do- 
mänen beziehen«.° Mit Domänen bezeichnen die Autoren »unterschiedliche 
Lernfelder (z.B. Lesen) oder fachbezogene Leistungsbereiche (z.B. mathemati- 
sches Modellieren)«.° Klieme und Leutner beziehen sich dabei, wie viele andere,’ 


3 Vgl. Noam Chomsky: Language and Mind. New York 1968. Der Begriff hat allerdings seit 
Chomskys Einführung eine etwas andere Entwicklung genommen. 

4 Für einen Überblick siehe Eckhard Klieme und Johannes Hartig: »Kompetenzkonzepte in den 
Sozialwissenschaften und im erziehungswissenschaftlichen Diskurs«, in: Zeitschrift für Erzie- 
hungswissenschaft 10 (2007), S. 11-29. 

5 Eckhard Klieme und Detlev Leutner: »Kompetenzmodelle zur Erfassung individueller Lerner- 
gebnisse und zur Bilanzierung von Bildungsprozessen: Beschreibung eines neu eingerichteten 
Schwerpunktprogramms der DFG«, in: Zeitschrift für Pädagogik 52 (2006), S. 876-903, hier S. 
879. 

6 Ebd. 

7 Z.B. Lutz Küster: »Kompetenzorientierung im Kontext des Lernens und Lehrens von Spra- 
chen«, in: Handbuch Fremdsprachenunterricht, hg. v. Karl-Richard Bausch, Eva Burwitz-Melzer, 
Hans-Jürgen Krumm, Grit Mehlhorn und Claudia Riemer. Tübingen 2016, S. 83-87; Ivo Steinin- 
ger: »Von der Fremdsprachendidaktik lernen? - Kompetenztheoretische Überlegungen als mög- 
liche Anknüpfungspunkte für die Modellierung wissenschaftlicher Lehrkompetenzen«, in: Lehr- 
kompetenzen in der wissenschaftlichen Weiterbildung. Konzepte, Forschungsansätze und 
Anwendungen, hg. v. Olaf Hartung und Marguerite Rumpf. Wiesbaden 2015, S. 65-88. 
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auch auf Weinert (2001). Dieser verweist darauf, dass neben fachspezifischen 
auch fachübergreifende Kompetenzen dazu beitragen, Anforderungen erfolg- 
reich bewältigen zu können. Dabei sind ihm zufolge neben den erforderlichen 
»kognitiven Fähigkeiten und Fertigkeiten«? auch »die damit verbundenen moti- 
vationalen, volitionalen und sozialen Bereitschaften und Fahigkeiten« zur Prob- 
lemlösung erforderlich. Diese letztgenannten gehören zu den Handlungskom- 
petenzen, die laut Weinert für ein »gutes und erfolgreiches Leben« zu den 
fachlichen und fachübergreifenden Kompetenzen hinzukommen müssen." 
Klieme (2004) hält allerdings fest, dass der Kompetenzbegriff häufig enger ge- 
fasst wird und motivationale, volitionale und soziale Aspekte nicht mit einbe- 
zieht.” Vielmehr erfolgt eine Beschränkung auf kognitive Fähigkeiten. Damit ste- 
hen in der Regel die ersten beiden von Weinert beschriebenen Kompetenzformen 
— fachspezifische und fachübergreifende Kompetenzen - im Zentrum der Kom- 
petenzforschung, nicht jedoch die drittgenannte, die Handlungskompetenzen. 
Wir schließen uns diesem Verständnis von Kompetenz an, nicht, weil die ge- 
nannten Aspekte nicht von Bedeutung wären, sondern um konzeptionell schär- 
fer eingrenzen zu können, was unsere Untersuchungsgegenstände sind, und um 
diese dann empirisch präziser erfassen zu können.” Wilhelm und Nickolaus 
(2013) zufolge muss »Kompetenz« selbst zum Teil noch genauer von anderen in 
der Leistungsdiagnostik gebräuchlichen Konzepten unterschieden werden." Ta- 
belle 1 gibt eine Übersicht über verwandte Konzepte und ihre Definitionen. 


8 Franz E. Weinert: »Vergleichende Leistungsmessung in Schulen - eine umstrittene Selbstver- 
ständlichkeit«, in: Leistungsmessungen in Schulen, hg. v. ders. Weinheim 2001, S. 17-32. 

9 Viele Autoren verwenden die Begriffe »Fähigkeit« und »Fertigkeit«, als seien sie austausch- 
bar, ohne eine Definition anzubieten. Für Definitionen und eine Abgrenzung siehe Tabelle 1. 

10 Weinert: »Vergleichende Leistungsmessung in Schulen«, S. 27. 

11 Ebd., S. 28. 

12 Eckhard Klieme: »Was sind Kompetenzen und wie lassen sie sich messen?«, in: Pädagogik 6 
(2004), S. 10-13. 

13 Auch Fleischer, Jens, Karoline Koeppen, Martina Kenk , Eckhard Klieme und Detlev Leutner: 
»Kompetenzmodellierung: Struktur, Konzepte und Forschungszugänge des DFG-Schwerpunkt- 
programms«, in: Zeitschrift für Erziehungswissenschaft 16 (Sonderheft) (2013), S. 5-22 schlagen 
vor, motivationale und emotionale Faktoren zunächst auszuschließen, »vor allem auch aus 
pragmatischen Erwägungen« (S. 7). 

14 Oliver Wilhelm und Reinhold Nickolaus: »Was grenzt das Kompetenzkonzept von etablierten 
Kategorien wie Fahigkeit, Fertigkeit oder Intelligenz ab?«, in: Zeitschrift fiir Erziehungswissen- 
schaft 16 (2013), S. 23-26. 
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Tab. 1: Ubersicht tiber dem Kompetenzbegriff verwandte Konzepte 


Fahigkeit 


Fertigkeit 


Lernen 


Wissen 


Intelligenz 


Performanz 


»Die Gesamtheit der zur Ausfiihrung einer bestimmten Leistung erforderlichen 
personalen Bedingungen«. Anders gesagt, es handelt sich um in »der Lebens- 
geschichte entstandene, komplexe Eigenschaften, die als verfestigte Systeme 
verallgemeinerter psychologischer Prozesse den Tätigkeitsvollzug steuern«.” 


Die »beschreibende Bezeichnung für aufgabenbezogene menschliche Aktivitä- 
ten«. In Abgrenzung zu Fähigkeit lässt sich Fertigkeit »als Leistung bei einer 
bestimmten Aufgabe, die sich auf dem Hintergrund aufgabenübergreifender, 
personenspezifische Fähigkeiten durch Übung herausbildet« definieren.'° 


»Der Begriff »Lernen« kann als ein Prozess kognitiver Veränderungen verstan- 
den werden und referiert daher - in Abgrenzung zum Begriff Kompetenz: - 
nicht auf Dispositionskonstrukte oder individuelle Unterschiede in latenten 
Verhaltensbereitschaften«.” Die Autoren lassen dabei offen, welcher Art die 
genannten kognitiven Veränderungen sind und ob sie sich lediglich auf einen 
Gewinn an Wissen oder auch auf einen Gewinn an Kompetenz beziehen. 


Ein mögliches Produkt von Lernen.® 


Die Abgrenzung zu Intelligenz ist nicht immer eindeutig und hängt unter ande- 
rem von den herangezogenen Modellen ab. Laut Wilhelm und Nickolaus be- 
steht ein entscheidender Unterschied darin, dass Intelligenz als Oberbegriff 
weniger auf Domänen fokussiert ist als Kompetenz. 


Das Konzept der Performanz geht auf Chomsky (z.B. 1968) zurück, der sprach- 
liche Kompetenz (»linguistic competence«) von Performanz oder dem tatsächli- 
chen Gebrauch von Sprache (»the actual observed use of language - actual 
performance«) unterscheidet.'? Allgemein kann Performanz als empirischer In- 
dikator einer zugrundeliegenden Kompetenz gesehen werden, wobei beachtet 
werden muss, dass eine punktuelle Fehlleistung in der Performanz noch nicht 
als Hinweis auf mangelnde Kompetenz gesehen werden sollte.”° 


Hervorzuheben ist für unsere Zwecke zunächst das Verständnis von Kompetenz 
als Disposition. Es impliziert, dass sich eine Kompetenz nicht direkt beobachten 
lässt, sondern dass manifeste Indikatoren gefunden werden müssen, die auf die 


15 Hartmut O. Hacker: »Fähigkeit«, in: Dorsch — Lexikon der Psychologie, hg. v. Markus A. Wirtz. 
Bern 2016 https://portal.hogrefe.com/dorsch/faehigkeit/ (20. Dezember 2016). 

16 Herbert Heuer: »Fertigkeit«, in: Dorsch — Lexikon der Psychologie, hg. v. Markus A. Wirtz. 
Bern 2016 https://portal.hogrefe.com/dorsch/faehigkeit/ (20. Dezember 2016). 

17 Wilhelm/Nickolaus: »Was grenzt das Kompetenzkonzept von etablierten Kategorien wie Fä- 
higkeit, Fertigkeit oder Intelligenz ab?«, S. 25. 


18 Ebd. 


19 Chomsky: Language and Mind, S. 102. 
20 Vgl. Steininger: »Von der Fremdsprachendidaktik lernen?« 
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zugrundeliegende Kompetenz schließen lassen. Kompetenz als latentes Kon- 
strukt zu verstehen, erscheint theoretisch sinnvoll und hat Implikationen für die 
Art der empirischen Forschung (und für die einzusetzenden statistischen Verfah- 
rensweisen der Psychometrie). 

An dieser Stelle sei außerdem eine Anmerkung zu dem Verhältnis von allge- 
meinen zu spezifischen Kompetenzen gemacht: Die oben zitierte Definition von 
Klieme und Leutner lässt sich sowohl auf domänenübergreifende als auch auf 
spezifische Kompetenzen anwenden. Es gibt also allgemeine Kompetenzen, die 
es ermöglichen, in vielen unterschiedlichen Situationen erfolgreich zu handeln, 
und andere spezifische Kompetenzen, die für ganz bestimmte Situationen erfor- 
derlich sind.” Klieme (2004) verweist allerdings darauf, dass das Konzept allge- 
meiner Kompetenzen oder Schlüsselkompetenzen (wie sie auch genannt werden) 
theoretisch sinnvoll und nachvollziehbar sein mag, dass sich aber empirisch we- 
nig Anhaltspunkte für die Bedeutung bereichsübergreifender Schlüsselkompe- 
tenzen finden.” Um erfolgreich handeln zu können, scheinen fach- oder domä- 
nenspezifische Kompetenzen von besonderer Bedeutung zu sein, und diese 
lassen sich nicht einfach durch transferierbare Schlüsselkompetenzen ersetzen, 
auch wenn Klieme zufolge seit den 1980er Jahren eine Tendenz zu beobachten 
ist, solche Schlüsselqualifikationen in den Vordergrund zu setzen. Es ist also 
sinnvoll, allgemeinere und spezifische Kompetenzen zu unterscheiden. Ein Bei- 
spiel ist die Unterscheidung von allgemeiner pädagogisch(-psychologisch)er 
Kompetenz und fachdidaktischer Kompetenz.” Ein weiteres Beispiel findet sich 
in der Sprachdidaktik. Im Gemeinsamen Europäischen Referenzrahmen für Spra- 
chen (GER) werden allgemeine Kompetenzen und fachspezifische Kompetenzen 
unterschieden. Zu ersteren gehören die vier Bereiche »1) des deklarativen Wis- 
sens (savoir), 2) des prozeduralen Wissens bzw. der Fertigkeiten incl. der Steue- 
rung und Überprüfung konkreter Handlungen (savoir-faire), 3) der persönlich- 
keitsbezogenen Kompetenzen und Einstellungen (savoir-étre) und 4) der 


21 Vgl. z.B. Daniela Caspari, Andreas Grünewald, Adelheid Hu, Lutz Küster et al.: Kompetenz- 
orientierung, Bildungsstandards und fremdsprachliches Lernen - Herausforderungen an die 
Fremdsprachenforschung. Positionspapier von Vorstand und Beirat der DGFF 2008; Klieme/Har- 
tig: »Kompetenzkonzepte in den Sozialwissenschaften«; Küster: »Kompetenzorientierung im 
Kontext des Lernens und Lehrens von Sprachen; Steininger: »Von der Fremdsprachendidaktik 
lernen?«. 

22 Vgl. Klieme: »Was sind Kompetenzen und wie lassen sie sich messen?«. 

23 Vgl. Lee S. Shulman: »Those Who Understand: Knowledge Growth in Teaching«, in: Educa- 
tional Researcher 15.2 (1986), S. 4-14. 
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Lernfahigkeit (savoir-apprendre)«™, zu letzteren »1) die sprachlichen Kompeten- 
zen mit der Unterteilung in lexikalische, grammatische, semantische und phono- 
logische Kompetenzen, 2) die soziolinguistischen Kompetenzen, womit v. a. eine 
adressatengerechte Sprachverwendung gemeint ist, und 3) pragmatische Kom- 
petenzen, die sich auf das Organisieren und Strukturieren, die funktionale Ziel- 
richtung und den genregerechten Einsatz sprachlichen Handelns richten«.” 

Bei dem GER handelt sich um ein sogenanntes Kompetenzstrukturmodell. 
Darunter versteht man ein Modell, anhand dessen sich die beschriebene Kompe- 
tenz in unterschiedliche Teilkompetenzen oder Facetten unterteilen lässt. 
Caspari et al. (2008) verweisen darauf, dass bei der Formulierung von Bildungs- 
standards solche Kompetenzstrukturmodelle häufig die Grundlage bilden, dass 
aber die Begründungen für die Dimensionen und Substrukturen teilweise 
»durchaus arbiträr« seien.” Die Zahl und Struktur der Dimensionen ist damit Dis- 
kussionsgegenstand von Validitatsiiberlegungen.” 


2.2 Textverstehenskompetenz in der Anglistik 


Die Kompetenz englischsprachige Texte zu verstehen, ist zweifellos für das Fach 
Anglistik und insbesondere die Literaturwissenschaft zentral. Sie ist bei Schüle- 
rinnen und Schülern in Deutschland beispielsweise im Rahmen der DESI-Studie 
(»Deutsch Englisch Schülerleistungen International«) untersucht worden”, in- 
ternational im Rahmen der bekannten von der OECD (Organisation for Economic 


24 Der GER folgt also nicht der von uns oben vorgenommenen Unterscheidung von Kompetenz 
und Wissen. Auch Fertigkeiten scheinen mit den anderen Begriffen synonym gebraucht zu wer- 
den. 

25 Küster: »Kompetenzorientierung im Kontext des Lernens und Lehrens von Sprachen, S. 85. 
26 Caspari et al.: Kompetenzorientierung, Bildungsstandards und fremdsprachliches Lernen, S. 4. 
Für Kritik am GER siehe auch Eva Burwitz-Melzer: »Ein Lesekompetenzmodell für den fremd- 
sprachlichen Literaturunterricht«, in: Literaturunterricht, Kompetenzen und Bildung, hg. v. 
Lothar Bredella und Wolfgang Hallet. Trier 2007, S. 127-157 sowie Günter Nold: »DESI im Kontext 
des Gemeinsamen Europäischen Referenzrahmens für Sprachen, in: Sprachliche Kompetenzen. 
Konzepte und Messung. DESI-Studie, hg. v. Bärbel Beck und Eckhard Klieme. Weinheim 2007, S. 
299-305. 

27 Zu Validität siehe auch Johannes Hartig, Andreas Frey und Nina Jude: »Validität«, in: Test- 
theorie und Fragebogenkonstruktion, hg. v. Helfried Moosbrugger und Augustin Kelava. 2. über- 
arbeitete und erweiterte Aufl. Heidelberg 2012, S. 143-171. 

28 Bärbel Beck und Eckhard Klieme: Sprachliche Kompetenzen. Konzepte und Messung. DESI- 
Studie. Weinheim 2007. 
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Co-operation and Development) durchgefiihrten PISA-Studie (Programme for In- 
ternational Student Assessment). PISA ist eine der bekanntesten Leistungsstu- 
dien, und die im Rahmen von PISA erstellten Ranglisten finden international Be- 
achtung. Außerdem hat PISA (und ähnliche Studien wie etwa TIMSS für die 
Mathematik und Naturwissenschaften) zur Verbreitung des Kompetenzbegriffes 
beigetragen. Bei PISA werden die Bereiche Lesekompetenz, mathematische und 
naturwissenschaftliche Kompetenz untersucht. Lesekompetenz wird dabei fol- 
sendermaßen definiert: »Reading literacy is understanding, using, reflecting on 
and engaging with written texts, in order to achieve one’s goals, develop one’s 
knowledge and potential, and participate in society. [...] Reading literacy in- 
cludes a wide range of cognitive competencies, from basic decoding, to 
knowledge of words, grammar and larger linguistic and textual structures and 
features, to knowledge about the world.« (OECD 2016, S. 49). Im Gegensatz zu 
Surkamps Konzept der Literaturkompetenz (s.u.) werden hier nur kognitive As- 
pekte berücksichtigt, es handelt sich jedoch immer noch um eine recht breite und 
umfassende Definition. So wäre zu fragen, in welchem Verhältnis »competences« 
und »knowledge« zueinander stehen und worauf sich dementsprechend die Leis- 
tungsmessung bezieht. 

Die Autoren der DESI-Studie haben sich sowohl theoretisch als auch empi- 
risch mit dem Begriff der Kompetenz eingehend auseinandergesetzt und diesen 
speziell auf die Schulfächer Deutsch und Englisch bezogen. Die für Englisch un- 
tersuchten Kompetenzen sind Folgende: »mündliche Sprechfähigkeit (erfasst mit 
Hilfe eines computergestützten Tests), Hörverstehen, Leseverstehen, kreatives 
Schreiben, zwei Aspekte der Sprachbewusstheit (grammatischer Bereich und so- 
zio-pragmatischer Bereich, d.h. Verständnis für adressatengerechte Sprache), in- 
terkulturelle Kompetenz und die Fähigkeit zur Rekonstruktion von Lückentexten 
(sog. C-Test) als Globalindikator der Sprachkompetenz«.” Es zeigten sich große 
Unterschiede zwischen Schülerinnen und Schülern verschiedener Schularten in 
den gemessenen Kompetenzen. So erreichten Gymnasiastinnen und Gymnasias- 
ten häufig das geforderte Bildungsniveau oder übertrafen es, während Schülerin- 
nen und Schüler anderer Schularten nicht immer auch nur das erwartete Min- 
destniveau erreichten.” Auch hier wäre zu fragen, ob es nur darum geht, die 


29 Eckhard Klieme: Zusammenfassung zentraler Ergebnisse der DESI-Studie. Frankfurt a. M. 
2006, S. 1, http://www.dipf.de/de/forschung/projekte/pdf/biqua/DESI_Ausgewaehlte_Ergeb- 
nisse.pdf (20. Juni 2017). 

30 Die in der DESI-Studie herangezogenen Teilbereiche von Kompetenz sind offensichtlich re- 
levant fiir die Untersuchung der Sprachkompetenz von Schiilerinnen und Schiilern. Sie sind je- 
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Kompetenzen als hoch oder niedrig zu bewerten, oder auch darum, in welchem 
Zusammenhang Teilkompetenzen zueinander stehen. 

In dem hier vorgestellten Projekt zur Kompetenzmodellierung geht es zu- 
nächst um angehende Lehrkräfte, von denen erwartet wird, dass ihre Kompeten- 
zen deutlich über die von Schülerinnen und Schülern zu erwerbenden Kompe- 
tenzen hinausgehen. Der Ansatz untersucht das literarische Textverstehen, da 
davon ausgegangen wird, dass literarische Texte häufig sprachlich komplexer als 
Sachtexte sind und die Anforderungen an die Leserin oder den Leser damit höher 
sind, als dies bei den in DESI und PISA vorwiegend eingesetzten Sachtexten der 
Fall ist. Surkamp hat ein umfassendes Modell literaturbezogener Kompetenzen 
im Englischunterricht entwickelt, das die drei Bereiche motivationale und attitu- 
dinale Kompetenzen, ästhetische und kognitive Kompetenzen sowie sprachliche 
und diskursive Kompetenzen erfasst.” Unser Fokus ist dagegen deutlich enger 
und damit auch konkreter. Wie oben bereits ausgeführt, klammern wir hier mo- 
tivationale, volitionale und soziale Aspekte von Kompetenz aus; d.h. wir gehen 
grundlegend von der Fähigkeit aus, einen Text aufmerksam zu lesen und zu ver- 
stehen. Unser Vorgehen beruht also auf einem an Texteigenschaften orientierten 
Verständnis von Kompetenz, das es ermöglicht, konkrete Teilkompetenzen zu 
modellieren und damit auch, so die Erwartung, gezielt zu fördern. Damit ist auch 
der Versuch verbunden herauszufinden, was eigentlich passiert, wenn Texte 
(nicht) verstanden werden und entsprechende Komponenten, die das Textver- 
ständnis beeinflussen, zu identifizieren. 


doch recht breit angelegt, und die konzeptionelle Unterscheidung von Kompetenzen und empi- 
rischen Indikatoren ist nicht immer ganz klar, wie etwa bei der oben genannten »Fähigkeit zur 
Rekonstruktion von Lückentexten«, bei der es sich eher um eine Messmethode als um eine 
(Teil-)Kompetenz zu handeln scheint. Der im vorliegenden Beitrag verwendete Kompetenzbe- 
griff ist dagegen spezifischer und konzentriert sich — wie oben bereits erwähnt - auf das Verste- 
hen literarischer Texte. 

31 Für eine Übersicht siehe Bärbel Diehr und Carola Surkamp: »Die Entwicklung literaturbezo- 
gener Kompetenzen in der Sekundarstufe I: Modellierung, Abschlussprofil und Evaluation«, in: 
Literaturkompetenzen Englisch. Modellierung - Curriculum - Unterrichtsbeispiele, hg. v. Wolf- 
gang Hallet, Carola Surkamp und Ulrich Krämer. Seelze 2012, S. 21-40. 
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3 Die empirische Erhebung von 
Textverstehenskompetenz: ein Fallbeispiel 


3.1 Methode 


Um Kompetenzen des literarischen Textverstehens modellieren zu können, wer- 
den Textphänomene isoliert, deren Verständnis in unterschiedlicher Weise zum 
Verstehen des Gesamttextes beiträgt. Als Material dienen im Zuge des Projekts 
Texte aus der englischsprachigen Literatur unterschiedlicher Gattungen und Pe- 
rioden, aufgrund ihrer Kompaktheit vor allem Gedichte: sie sind nicht nur in ihrer 
Länge überschaubar, sondern verfügen häufig über eine große Dichte an kom- 
plexen sprachlichen (und poetischen) Phänomenen. Als besonders geeignet er- 
scheinen uns hierbei Texte, die klar beschreibbare Phänomene aufweisen, etwa 
Ironie (d.h. die Aussage des Gegenteils des Gemeinten) und Ambiguität (mindes- 
tens zwei distinkte und klar zu identifizierende Bedeutungen?), und bei denen es 
für die Gesamtbedeutung des Textes wichtig ist, dass diese Phänomene erkannt 
werden. In den Erhebungen zur Textverstehenskompetenz wird durch systema- 
tisch aufeinander aufbauende Fragen bzw. Aufgaben der Versuch unternommen, 
die Elemente des Textes, deren Verständnis zum Gesamtverständnis beiträgt, in 
ihrer Abhängigkeit voneinander zu erfassen. Es geht somit darum, von kleineren 
und konkreten Items zum generellen Textverständnis voranzuschreiten. Dies er- 
leichtert bzw. ermöglicht die Unterteilung in messbare Teilkompetenzen - im Ge- 
gensatz zur Überprüfung eines globalen Textverständnisses, die z.B. darin beste- 
hen könnte, dass man einer Gruppe eine Seite zu lesen gibt und danach fragt, 
was verstanden wurde.” 

Die Grundlage unserer Methode ist folglich in der Linguistik zu verorten; 
beim Textverstehen kommen sprachliches Wissen (Lexikon, Syntax, Semantik) 
und die Pragmatik eines Textes zusammen. In literarischen Texten geht es nun 
darum festzustellen, wie pragmatische Prinzipien eingesetzt werden, d.h. etwa 


32 Siehe Matthias Bauer: »Ironie und Ambiguität: Annäherungen aus literaturwissenschaftli- 
cher Sicht«, in: Faktuales und fiktionales Erzählen, hg. v. Nicole Falkenhayner, Monika Fludernik 
und Julia Steiner. Würzburg 2015, S. 139-158. 

33 Dass ein solches Vorgehen durchaus Usus ist, zeigt z.B. die aktuelle Ausgabe von Shakespea- 
res Sonetten im Cambridge School Shakespeare. Dort wird in der Rubrik »Studying The Sonnets« 
vorgeschlagen, zunächst danach zu fragen, »What is your general impression of what this son- 
net is about?« William Shakespeare: The Sonnets. Cambridge School Shakespeare. Hg. v. Rex Gib- 
son. Cambridge [1605] 1997, S. 197. 
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das Gemeinte aus dem Gesagten abzuleiten und damit Implikaturen zu erken- 
nen”, um einen Text zu verstehen. Die Einzeläußerungen müssen also in ihrem 
Gesamtäußerungskontext ausgewertet und verstanden werden, d.h. es muss im 
Lese- bzw. Verstehensverlauf ein Kontextupdate vorgenommen werden, das lo- 
kale Phänomene in den Textzusammenhang integriert und ihre Funktionalität 
innerhalb des Textes erkennt. Das Erkennen distinkter Phänomene sowie ihre In- 
tegration in den Zusammenhang werden somit als wesentlicher Bestandteil lite- 
rarischer Textverstehenskompetenz angesehen, und es werden Tests konstruiert, 
die geeignet sind, das Vorhandensein und Ausmaß dieser genannten Teilkompe- 
tenzen zu erheben. 

Die empirischen Erhebungen erfolgen in Lehrveranstaltungen aller Semester 
und Veranstaltungstypen des Fachs Anglistik der Universität Tübingen. Teil- 
weise ergibt sich das Material der Erhebungen aus Seminaren der am Projekt be- 
teiligten anglistischen Literaturwissenschaftler, aber auch aus anderen Lehrver- 
anstaltungen, etwa Vorlesungen. Neben den eigentlichen Kompetenzerhebung- 
en werden auch Hintergrundinformationen zum jeweiligen Studiengang (es neh- 
men sowohl Lehramtsstudierende wie auch Studierende im BA und MA an den 
Lehrveranstaltungen teil), zu bereits absolvierten Auslandsaufenthalten (die sich 
sowohl auf sprachliche Kompetenz wie auch kulturelles Wissen auswirken kön- 
nen) sowie zur Lektüre englischer Texte in der Freizeit erhoben”. 

Die Ergebnisse werden aufgrund des Erwartungshorizonts zu den jeweiligen 
Aufgaben mit O (falsch beantwortet bzw. außerhalb des Erwartungshorizonts) 
und 1 (richtig/plausibel beantwortet) kodiert. Eine der methodischen Schwierig- 
keiten ergibt sich u.a. daraus, dass verbale Aussagen mit 0 oder 1 kodiert werden 


34 Siehe dazu Paul Grice: »Logic and conversation«, in: Syntax and semantics. 3: Speech acts, 
hg. v. Peter Cole und Jerry L. Morgan. New York 1975, S. 41-58 und seine Konversationsmaximen, 
die etwa bei der Verwendung von Ironie verletzt werden (maxim of quality). Diese offensichtliche 
Verletzung (flouting) trifft jedoch in literarischen Texten nur bedingt zu, weil sie funktional wird; 
man spricht in diesem Zusammenhang deshalb von apparent flouting (s. dazu Nadine Bade und 
Siegrid Beck: »Lyrical Texts as a Data Source for Linguistics«, in: Linguistische Berichte, im Er- 
scheinen). 

35 Die Erhebungen finden teilweise über zwei Zeitpunkte statt, um eine Verbesserung bzw. Sta- 
bilisierung der Kompetenz des Textverstehens im zeitlichen Verlauf zu überprüfen, d.h. die erste 
Erhebung findet zu Beginn, die zweite zum Ende des Semesters statt. Dieses Vorgehen beinhaltet 
teilweise die zusätzliche methodische Herausforderung, Textbeispiele zu finden, die einander 
ähnlich, aber nicht identisch sind, d.h. die das gleiche Phänomen beinhalten; in anderen Fällen 
wird der gleiche Text mit den identischen Fragen nochmals vorgelegt. Bei dem in diesem Kapitel 
vorgestellten Fallbeispiel handelt es sich jedoch um eine Erhebung, die nur zu einem Zeitpunkt 
durchgeführt wurde. 
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müssen, womit die Quantifizierung einer Aussage stattfindet, die inhaltlich be- 
wertet werden muss; ebenso werden manchmal mehrere unterschiedliche rich- 
tige Antworten kodiert. Dabei wurden die richtigen Antwortalternativen oder ihre 
Eigenschaften vorab beschrieben. Um das Verständnis von Teilkompetenzen iso- 
lieren zu können, wurden allerdings auch Fragen eingeführt, die nicht kodiert 
werden, anhand derer aber der individuelle Verlauf des Verstehens nachvollzo- 
gen werden kann (etwa die Frage danach, ob ein Wort in einer Gedichtzeile mehr- 
deutig ist oder nicht; s.u. 3.2). 

Mehrere Herausforderungen sind bei diesem Vorgehen zentral: zum einen 
die Frage danach, wie sich das Textverstehen verbessern lässt. Dies geschieht 
etwa anhand der Überprüfung von Annahmen über die Relationen von Teilas- 
pekten des Textverstehens, die dann wiederum nachvollziehbar machen, an wel- 
chen Punkten das Textverstehen (häufig, d.h. bei einer kritischen Masse von Pro- 
banden) scheitert. Die Identifikation von Teilschritten beim Verstehen erlaubt in 
einem nächsten Schritt die gezielte Verbesserung von Textverständnis*. Zum an- 
deren stellt sich die Frage, wie sich unser Wissen über das Textverstehen, etwa 
im zeitlichen Verlauf, verbessern und als Kompetenz gemessen werden kann. Ein 
Zugang besteht in der Erhebung über verschiedene Zeitpunkte, was die Nachvoll- 
ziehbarkeit des Textverständnisses der Erhebungsteilnehmer ermöglicht. 


3.2 Fallbeispiel: Ambiguität in Shakespeares Sonett 43 


In dieser Erhebung ging es um die valide Identifikation einzelner Faktoren beim 
Textverständnis. Dafür wurde Shakespeares Sonett 43 ausgewählt, das sich 
durch ein hohes Maß an lokalen Ambiguitäten auszeichnet, die sich auf das glo- 
bale Textverstehen auswirken.” Hierzu wurden zunächst Erhebungen in kleine- 
ren Gruppen in einer Piloterhebung im Sommersemester 2016 durchgeführt, um 
zu überprüfen, ob die Fragen in der Tat das Textverstehen im Zusammenspiel von 
Einzeläußerungen, Äußerungskontext, Kontextupdate und der Funktion von 
Einzelphänomenen im Textzusammenhang erfassen. Aufgrund dieser Ergeb- 
nisse wurden die Fragen für die im Wintersemester 2016/17 folgende Erhebung 
teilweise revidiert. 


36 Damit schließen sich an dieser Stelle dann fachdidaktische Fragestellungen an, die im Rah- 
men des hier vorgestellten Projektes in einem weiteren Schritt bearbeitet werden. 

37 S. dazu auch Matthias Bauer, Nadine Bade, Sigrid Beck, Carmen Dörge und Angelika Zirker 
(2015): »Ambiguity in Shakespeare’s Sonnet 138«, in: Ambiguity: Language and Communication. 
Hg. v. Susanne Winkler. Berlin 2015 , S. 89-109. 
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Hier zunächst das Sonett, das die Grundlage der Erhebung bildete: 


01 When most I wink, then do mine eyes best see, 

02 For allthe day they view things unrespected; 

03 But when I sleep, in dreams they look on thee, 

04 And darkly bright, are bright in dark directed. 

05 Then thou whose shadow shadows doth make bright, 
06 How would thy shadow’s form form happy show 

07 To the clear day with thy much clearer light, 

08 When to unseeing eyes thy shade shines so? 

09 How would (I say) mine eyes be blessed made 

10 By looking on thee in the living day, 

11 When in dead night thy fair imperfect shade 

12 Through heavy sleep on sightless eyes doth stay? 

13 All days are nights to see till I see thee, 

14 And nights bright days when dreams do show thee me. (Shakespeare 1609/1997) 


In der ersten Aufgabe wurden in der Piloterhebung folgende Fragen gestellt: 


Task 1: line 1»When most I wink, then do mine eyes best see;« 

Task 1.1: What is the relationship between part 1 of the line (»When most I wink«) and part 
2 (»then do mine eyes best see«)? 

Task 1.2: Paraphrase or translate line 1. 


Bei Aufgabe 1.1 bezog sich der Erwartungshorizont auf das Erkennen des Wider- 
spruchs bzw. des Paradox in der ersten Zeile: wenn die Augen am festesten ge- 
schlossen sind, wird am meisten gesehen. Aufgabe 1.2 diente der Uberpriifung 
des Verständnisses der Zeile, geleitet von der Hypothese, dass Studierende das 
Wort »wink« tendenziell falsch übersetzen bzw. paraphrasieren, weil sie sich der 
Bedeutung des Wortes in historischer Perspektive nicht bewusst sind: »wink« 
wird synchron vor allem als »zwinkern« verstanden; historisch bedeutete es aber 
auch bzw. vor allem, die Augen zu schließen.” Aufgabe 1.2 hatte also die Funk- 
tion, das Zustandekommen der Antwort zu 1.1 nachzuvollziehen: wurde einfach 
nur richtig geraten, oder wurde das Wort tatsächlich korrekt verstanden? Der 
Kombination von 1.1 und 1.2 liegt die Annahme zugrunde, dass man den Wider- 
spruch bzw. das Paradox nur bei der richtigen Übersetzung/Paraphrase von Zeile 
1 (»wink«) erkennen kann bzw. umgekehrt, dass sich bei der Annahme eines Pa- 
radoxes die Bedeutung von »wink« erschließen lässt. Aus dem Nichterkennen 
dieses Widerspruchs im Zusammenhang mit der Wortbedeutung von »wink«, so 


38 Vgl. Oxford English Dictionary (OED 2014): »wink, v'.« t1. und 2. 
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die Annahme, ergeben sich auch Schwierigkeiten bzgl. des weiteren Textver- 
ständnisses im Verlauf des Gedichts, etwa in der abschließenden Frage 3.3 »Ex- 
plain how line 1 makes sense in the overall context of the poem?« (siehe unten). 
Die Auswertung der beiden ersten Fragen (1.1 und 1.2) ergab, dass die meis- 
ten Studierenden die Fragen falsch verstanden hatten, so dass die Antwort häufig 
lautete, es handele sich um einen Konditionalsatz. Die Antwort ist sachlich rich- 
tig, entsprach jedoch nicht dem Erwartungshorizont, der lediglich die Lösung 
»Paradox« oder »Contradiction« als richtig wertete, was, wie wir dann feststell- 
ten, allerdings nicht der Wahrnehmung/Rezeption der Leserinnen und Leser ent- 
sprach. Dies ist somit ein Beispiel dafür, wie die Erhebung dazu dienen kann, das 
Textverständnis selbst zu strukturieren und nachzuvollziehen. Die Aufgabe 
wurde daraufhin dahingehend revidiert, dass die Beantwortung insgesamt klein- 
schrittiger erfolgen sollte und der Erwartungshorizont angepasst wurde: 


Task 1: line 1»When most I wink, then do mine eyes best see;« 

Task 1.1: What is the relationship between part 1 of the line (»When most I wink«) and part 
2 (»then do mine eyes best see«)? 

Task 1.2: Does the line have more meanings than one? Oyes O no 

Task 1.3: Give a reason for your answer. 

Task 1.4: Does the line make sense to you? Dyes Ono 

Task 1.5: Give a reason for your reading: if yes, why? if no, why? 


Die mittels dieses Sets von Items zu messende Kompetenz umfasst mehrere Stu- 
fen: zum einen geht es darum, die Verszeile zu verstehen in dem Sinn, dass ihr 
eine plausible Lesart unterlegt wird. Zum anderen geht es darum, nicht nur eine, 
sondern mehrere plausible Lesarten zu erhalten. Es geht in dieser zweiten Stufe 
also um die Kompetenz, Ambiguität als Eigenschaft insbesondere literarischer 
Texte zu erkennen. Die Widersprüchlichkeit der Verszeile ist eine der plausiblen 
Lesarten. Auf dieser Lesart baut die Kompetenz auf, das Paradox als literarische 
Ausdrucksweise zu erkennen, in welcher der Widerspruch als sinnvoll er- 
scheint.” Diese Stufung bzw. Verbindung von Kompetenzen wird durch Items 
1.1.-1.2-1.3 (die auf Ambiguität abzielen) und 1.1-1.4-1.5 (die auf das Paradox ab- 
zielen) messbar. Bei 1.1 bezog sich der Erwartungshorizont auf das Erkennen der 
Tatsache, dass »when« sowohl temporal wie auch konditional gelesen und dies 
jeweils auf die beiden Wortbedeutungen »Blinzeln« und »die Augen schließen« 
bezogen werden kann: (1) (Immer) wenn sehr ich blinzele, sehe ich besser; (2) 
Falls ich sehr blinzele, sehe ich besser; (3) (Immer) wenn ich ganz die Augen 


39 Ernst H. Behler: »Paradox«, in: The Princeton Encyclopedia of Poetry and Poetics, hg. v. Ro- 
land Greene and Stephen Cushman, Princeton 42012, S. 996-997. 
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schließe, sehe ich besser; (4) Falls ich ganz die Augen schließe, sehe ich besser. 
Aufgabe 1.2 sollte sicherstellen, dass 1.3 hinsichtlich des Zustandekommens der 
Antwort auszuwerten ist, d.h. hier erfolgte keine Bewertung im eigentlichen 
Sinne, sondern lediglich die Dokumentation der Antworten. Wenn also angege- 
ben wurde, dass die Zeile nicht mehr als eine Bedeutung haben kann, so ist davon 
auszugehen, dass die Ambiguität nicht erkannt wurde, was sich auf 1.3 sowie die 
restlichen Antworten zu Aufgabe 1 auswirkt. Im Falle der Antwort »ja« müsste in 
1.3 dann eine Antwort erfolgen, die mehr als eine Lesart berücksichtigt. 1.4 dient 
dann wiederum der Begründung in 1.5, wo es darum geht herauszufinden, wie es 
zum Verständnis der Zeile kommt. Sowohl für »ja« und »nein« sind verschiedene 
Zuordnungen zu den Lesarten (1)-(4) möglich; es bestand die Annahme, dass in 
1.5 zumindest implizit eine begründete Verknüpfung zu den Lesarten vorgenom- 
men wurde. So kann Lesart (4) sowohl »ja« als auch »nein« zugeordnet werden, 
da die Zeile in dieser Lesart sowohl als Widerspruch, wie auch als Sinn ergeben- 
der Widerspruch (im Sinn der Stilfigur des Paradoxes) aufgefasst werden kann. 

Während die erste Aufgabe sich auf das Verstehen der ersten Zeile des So- 
netts beschränkte, wurde in der zweiten Aufgabe das Verstehen von mehreren 
Ambiguitäten über zwei Gedichtzeilen hinweg getestet: 


Task 2: lines 5-6 »Then thou whose shadow shadows doth make bright, / How would thy 
shadow’s form form happy show« 

Task 2.1 Read line 6 and then decide on the word classes of the phrase »shadow’s form form 
happy show« and mark them accordingly (N / V / Adj...). 

Task 2.2: Read line 5 and then decide on the word classes of the phrase »whose shadow 
shadows« and mark them accordingly (N / V / Adj...). 

Task 2.3: Do »shadow« and »shadows« in line 5 have the same meaning? Give reasons for 
your answer. 

Task 2.4: Paraphrase or translate line 5. 

Task 2.5: Paraphrase or translate line 6 

Task 2.6: With regard to the form of lines 5-6, what do you find striking? 


Aufgabe 2.1 und Aufgabe 2.2 testen die korrekte Identifikation der Wortarten 
(»form« einmal als Nomen, einmal als Verb) sowie, in Aufgabe 2.3, der Bedeutun- 
gen von Wörtern bzw. ihrer Ambiguität: »shadow« kann im ersten Fall auch »Per- 
son« heißen bzw. auf eine Illusion hindeuten, gleichzeitig handelt es sich, im Ge- 
gensatz zu »form« zweimal um die gleiche Wortart“. Bei der Begründung der 


40 Hier kommt Wissen als Leseerfahrung, etwa von Shakespeares Werken, mit ins Spiel. Dies 
zeigte sich darin, dass — wie auch bei der Gesamtleistung im Test — Befragte, die bereits Shake- 
speares Werke gelesen hatten, bei diesen Aufgaben besser abschnitten, als diejenigen, die diese 
Leseerfahrung nicht hatten. Dies traf insbesondere auf Aufgabe 2.2 und 2.3 zu. 
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Antworten in 2.3, so die Annahme, gab es zwei Möglichkeiten. Im Falle des 
Nichterkennens der Ambiguität von »shadow« würde ein Rückbezug auf das Pa- 
radox in der ersten Zeile eine Rolle spielen; beim Erkennen von Ambiguität wäre 
davon auszugehen, dass erkannt wurde, dass diese Zeile sonst aufgrund der Wie- 
derholung des Wortes paradox wäre. Die folgenden Aufgaben 2.4 und 2.5 dienten 
dazu, das Verständnis der Zeilen dahingehend zu prüfen, ob das korrekte Erken- 
nen von Wortarten und Bedeutungen mit einer korrekten Paraphrase bzw. Über- 
setzung korreliert oder ob z.B. die Identifikation von Wortarten aufgrund von Ra- 
ten zustande kam. D.h. die Annahme war, dass Studierende, die 2.1 bzw. 2.2 
richtig beantworten können, auch Aufgabe 2.4 bzw. 2.5 richtig beantworten. Dies 
bedeutet im Umkehrschluss: Wenn 2.1 falsch beantwortet wird und 2.5 richtig, 
dann funktioniert das Item nicht. Empirisch fand sich hier allerdings kein ein- 
deutiger Zusammenhang in den Antworten zu diesen beiden Items. Für weitere 
Untersuchungen wäre eine genauere, auch qualitative Analyse der Fälle interes- 
sant, die der Erwartung widersprachen. Die letzte Aufgabe aus diesem Block 
diente schließlich der Integration lokaler Phänomene in einen größeren Zusam- 
menhang, etwa das Vorkommen von Wiederholung und eines Paradoxons bzw. 
Oxymorons. 

Abschließend ging es in Aufgabe 3 darum, den Schluss des Sonetts, in dem 
gattungskonform eine Art Fazit gezogen wird, in seinem Wechselspiel von Lite- 
ralsinn und Metapher zu verstehen und auf den Anfang des Sonetts zurück zu 
beziehen. Auch hier wurde zunächst das Teilverstehen des Paarreims getestet, 
das dann in einen größeren Zusammenhang führte: 


Task 3: lines 13-14 »All days are nights to see till Isee thee, / And nights bright days when 
dreams do show thee me.« 

Task 3.1: Paraphrase or translate lines 13-14. 

Task 3.2: Does line 13 make sense to you? Oyes O no 

Task 3.3: Give a reason for your answer: if yes, why? if no, why? 

Task 3.4: Going back to line 1: Explain if and how line 1 makes sense in the overall context 
of the poem. 


Aufgabe 3.1 dient erneut der Verständnisüberprüfung: Tag und Nacht stehen in 
einem antithetischen Zusammenhang miteinander, der hier zum Ausdruck ge- 
bracht wird, indem der (literale) Tag zur (metaphorischen) Nacht wird und, auf- 
grund der Träume vom geliebten Menschen, die (literale) Nacht zum (metaphori- 
schen) Tag. Bei Aufgabe 3.2 wird erneut lediglich die Antwort erfasst, jedoch 
nicht bewertet, weil sie dazu dient, 3.3 zu triggern, in der dann die Sinnhaftigkeit 
(oder ihre Negation) aus 3.2 erläutert wird. Im positiven Fall (die Zeile ergibt 
Sinn), so die Annahme, wird das Verhältnis von Tag und Nacht, wie es in dem 
Schlussvers ausgedrückt wird, erkannt; im negativen Fall bleibt dies aus. Die 
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letzte Aufgabe stellt den Zusammenhang zwischen Sonettende und -anfang her: 
das Sonett wird mit einem scheinbaren logischen Widerspruch eingeleitet (wenn 
meine Augen geschlossen sind, sehe ich am besten), am Ende wird jedoch deut- 
lich, dass der Sprecher den Adressaten nicht im physischen Sinne sieht, sondern 
in seinen Träumen (»when dreams do show thee mex). Zeile 1 ist demnach kein 
Widerspruch bzw. der scheinbare Widerspruch wird im Textzusammenhang auf- 
gelöst. 

Die Auswertung brachte insgesamt folgende Ergebnisse: Als deskriptives Er- 
gebnis hinsichtlich der Hintergrundinformationen lässt sich festhalten, dass 29% 
der Studierenden mindestens einen Auslandsaufenthalt hatten, 13% hatten 
Shakespeare im Rahmen universitärer Veranstaltungen gelesen. In der Freizeit 
lasen die Studierenden häufig englischsprachige Zeitungen, etwas seltener Kurz- 
geschichten und Romane und am seltensten Gedichte. Die Untersuchung eines 
möglichen Zusammenhangs von Hintergrundinformationen und Gesamtleistung 
im Kompetenztest zeigte, dass das Lesen von Shakespeare an der Universität mit 
einer Testleistung einherging (stand. Koeffizient: .102, p = .048). Darüber hinaus 
fanden sich leistungsförderliche Zusammenhänge zum Lesen von Romanen 
(stand. Koeffizient: .254, p < .001), hingegen ein negativer Zusammenhang zum 
Lesen von Kurzgeschichten (stand. Koeffizient: -.215, p < .001). Diesbezüglich 
wäre zukünftig zu überprüfen, ob die Romane vor allem im universitären Stu- 
dium gelesen wurden (analog zum Lesen von Shakespeare an der Universität), 
und um welche Art von Kurzgeschichten es sich handelt bzw. in welchem Kontext 
sie gelesen wurden (Universität oder Schule? In Seminaren oder privat? Um wel- 
che Texte handelt es sich?). 

Um die formulierten Aufgaben hinsichtlich ihrer Differenzierungsfähigkeit 
zu beurteilen, wurde eine sogenannte Itemanalyse durchgeführt. Die Aufgaben- 
schwierigkeiten lagen im Durchschnitt deutlich unter 50, so dass man von ten- 
denziell schwierigen Aufgaben ausgehen kann. Die Schwierigkeit eines Items 
wird berechnet, indem die Anzahl der Personen, die ein Item richtig gelöst haben, 
durch die Anzahl der Personen insgesamt, die das Item beantwortet haben, ge- 
teilt wird. Das Ergebnis wird mit 100 multipliziert. Die Schwierigkeit wird also auf 
einer Skala von O bis 100 gemessen, wobei 0 für größtmögliche Schwierigkeit 
steht (keine Person hat das Item gelöst) und 100 für größtmögliche Leichtigkeit 
(alle Personen haben das Item gelöst). Eine Konsistenzanalyse zeigte, dass die 
Items recht heterogene Aspekte erfassten (Cronbachs Alpha = .702“), was sich 


41 Cronbachs Alpha wird in der Testtheorie als Maß der Konsistenz (unter gewissen Bedingun- 
gen der Reliabilität, d.h. der Zuverlässigkeit eines Tests) verwendet. Es gibt an, wie stark die 
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sowohl in den Item-Interkorrelationen (mit einem tiberwiegend mittleren Korre- 
lationen) als auch in den Trennschärfen (max. rit = .482) zeigte. 

Dies zum Anlass nehmend wurden zusätzlich schiefwinklige exploratorische 
Faktorenanalysen berechnet (Bartlett-Test; Chi? (df = 66) = 785,6; p < .001). Hier 
fanden sich u.a. auf Grundlage des Eigenwerteverlaufs Hinweise auf eine mögli- 
che zwei-faktorielle Lösung, bei der die beiden Faktoren mäßig korrelierten (rı = 
302). Faktorenanalysen werden vorgenommen, um zu überprüfen, ob in den Da- 
ten - hier, in einem Test — mehr als eine Dimension oder Teilfähigkeit erfasst ist. 
Dabei wird untersucht, ob und wie stark die Items auf den identifizierten Fakto- 
ren „laden“, d.h. ob sie zu der vorgefundenen Dimension gehören. Bei unserer 
Faktorenanalyse zeigte sich, dass sechs Items (Aufgabe 1.3, 1.5, 2.2, 2.3, 2.4, 2.6) 
auf dem ersten Faktor und vier Items (2.5, 3.1, 3.3, 3.4) auf dem zweiten Faktor 
luden. Die sechs erstgenannten Items scheinen also eine ähnliche Fähigkeit zu 
erfassen, die sich wiederum von der durch die vier letztgenannten Items erfass- 
ten Fähigkeit unterscheidet. Der Zusammenhang war allerdings nur für Items 2.2, 
2.3 und 2.4 für den ersten Faktor und Items 3.1, 3.3 und 3.4 für den zweiten Faktor 
relativ deutlich. Zwei Items zeigte keine substantiellen Ladungen auf beiden Fak- 
toren (Aufgabe 1.1 und 2.1). 

Diese Ergebnisse sollten erste Eindrücke bezüglich der Dimensionalität der 
konstruierten Items ermöglichen. Bei den beiden Aufgaben, die keinem der bei- 
den Faktoren eindeutig zuzuordnen waren, handelt es sich um vorbereitende 
Fragen zu den darauffolgenden detaillierteren Aufgaben.“ Die Interpretation der 
beiden Faktoren ist aufgrund der teilweise nur mäßigen Faktorladungen nur mit 
Vorsicht möglich. Wenn man sich auf diejenigen Items konzentriert, die jeweils 
hohe Faktorladungen aufwiesen (Aufgabe 2.2 bis 2.4 auf Faktor 1 und Aufgaben 
3.1, 3.3 und 3.4 auf Faktor 2), erscheint es jedoch plausibel, dass die beiden Fak- 
toren eine Strukturierung im Hinblick auf lokales und globales Textverstehen wi- 
derspiegeln. Dies entspricht dem Design der Erhebung: In den ersten beiden Fra- 
genblécken wurden vor allem lokale Paradoxe und Ambiguitäten getestet, die 
sich auf Einzelwörter und einzelne Zeilen bezogen. Aufgabe 2.6 hatte einen deut- 
lich anderen Abstraktionsgrad, weil hier (05 Then thou whose shadow shadows 
doth make bright, / 06 How would thy shadow’s form form happy show) das Zu- 


einzelnen Items untereinander korrelieren. Werte können zwischen 0 und 1 liegen, wobei 1 für 
höchstmögliche Konsistenz/Reliabilität steht. 

42 Die Ergebnisse zu 2.1 (53,3% der Befragten haben Aufgabe 2.1 richtig beantwortet) und zu 2.2 
(22,5% richtige Antworten) bestätigen den Aufbau dieser Fragen (Zeile 6 wird vor Zeile 5 getes- 
tet), denn Aufgabe 2.2 hat sich als deutlich schwieriger erwiesen als Aufgabe 2.1. 
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sammenspiel von Polyptoton (shadow und form) sowie von Oxymoron und Para- 
dox (der Schatten, der etwas heller macht) über zwei Zeilen erkannt werden 
musste. Diese globale Sicht auf den Text wurde in Aufgabe 3 fortgeführt, die sich 
auf die beiden Schlusszeilen des Sonetts bezieht, die gattungsgemäß eine Art 
Synthese der Gesamtaussage beinhalten: »All days are nights to see till I see thee, 
/ And nights bright days when dreams do show thee me«. Auch hier wurde zu- 
nächst (wie auch in Aufgabe 1) nach einer Paraphrase oder Übersetzung der bei- 
den Zeilen gefragt, die jedoch ein lokales Verständnis von Ambiguitäten und Pa- 
radoxa voraussetzt (wie in den vorigen Gedichtzeilen präsentiert); d.h. wurden 
diese nicht erkannt, ist ein Verständnis dieser beiden Zeilen unwahrscheinlich. 
Die Schwierigkeit in diesen beiden Zeilen liegt zudem in der Tatsache, dass der 
wörtlich gemeinte Tag hier zur metaphorischen Nacht wird - und umgekehrt. Das 
Gedicht wird also von einem scheinbaren logischen Widerspruch in Zeile 1 einge- 
leitet (man kann besser sehen, wenn man die Augen schließt), der am Schluss 
jedoch dahingehend aufgelöst wird, als das Sehen in Träumen gemeint ist. Dies 
ist jedoch eine Lesart, die sich vor allem global aus dem Zusammenspiel der lo- 
kalen Ambiguitäten und Paradoxa ergibt. 


4 Schlussbemerkungen 


Texte, mit denen sich die Literaturwissenschaften beschäftigen, sind in der Regel 
komplex, vielschichtig und mehrdeutig. Sie entziehen sich damit häufig einer 
einfachen Deutung. Die zum Verständnis solcher Texte erforderliche Kompetenz 
zu definieren und zu untersuchen stellt damit eine besondere Herausforderung 
dar. Dementsprechend war es das Ziel dieses Kapitels, eine systematische und 
theoretisch fundierte Herangehensweise bei der Kompetenzmodellierung 
vorzustellen und dabei zu zeigen, in welcher Weise Literaturwissenschaft und 
Empirische Bildungsforschung gemeinsam hierzu beitragen können. Bei der Un- 
tersuchung literarischer Textverstehenskompetenz als Facette sprachlicher Kom- 
petenz bestand diese Herangehensweise zunächst in der sorgfältigen Auswahl 
des zu verwendenden Stimulusmaterials. Für das in diesem Kapitel vorgestellte 
Fallbeispiel wurde ein Gedicht herangezogen, das sich aufgrund seiner histori- 
schen Distanz (Shakespeares Sonette wurden bekanntlich 1609 erstmals 
veröffentlicht) sowie seiner Struktur und der hohen Dichte an sprachlichen Phä- 
nomenen besonders gut eignet, das Verstehen lokaler Phänomene mit dem Text- 
zusammenhang insgesamt in Bezug zu setzen. Außerdem lassen sich Gedichte 
wegen ihrer Kürze gut in einer Testsituation einsetzen. An die Auswahl des Textes 
schloss sich die Konstruktion von Testitems an. Diese wurden so aufgebaut, dass 
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die beim Verständnisprozess ablaufenden Schritte explizit werden konnten. Dies 
bedeutet, dass zunächst Wortbedeutung bzw. grammatische Funktion eines Wor- 
tes, dann die Bedeutung einer Phrase, und schließlich das Verständnis einer Zeile 
oder Strophe im Kontext des gesamten Gedichts erfragt wurden. Damit lässt sich 
der Prozess vom Zustandekommen eines lokalen hin zu einem globalen Ver- 
ständnis nachvollziehen. 

Dieser Ansatz erwies sich als ergiebig, was sich an den Auswertungen in 
mehrerer Hinsicht zeigt. Es wurde deutlich, dass erwartungsgemäß die erfolgrei- 
che Lösung der Items, die lokales Verständnis erfassen sollten, in der Regel tat- 
sächlich Voraussetzung für das globalere Verständnis war. Fin weiterer Aspekt 
der Validität betrifft die in die Untersuchung einbezogenen Kovariaten wie Be- 
schäftigung mit Shakespeare und Lektüre literarischer Texte, die mit einer besse- 
ren Leistung in dem hier eingesetzten Kompetenztest einhergingen. Auch dies 
lässt sich als Hinweis darauf sehen, dass der Test tatsächlich literarische Textver- 
ständniskompetenz erfasst, da zu erwarten ist, dass diese bei Personen, die die 
genannten Aktivitäten zeigen, höher ist. 

Wie eingangs ausgeführt stellt die hier beschriebene Untersuchung einen 
ersten Schritt bei der Kompetenzmodellierung im Rahmen unseres Projektes dar. 
Die vorgestellten Instrumente werden aufgrund der bisherigen Ergebnisse lau- 
fend weiter überarbeitet. Der Index Cronbachs Alpha, der auf eine gewisse Hete- 
rogenität der eingesetzten Items hinweist, ist dabei ein nützlicher Indikator, um 
die Auswahl und Erstellung der Items weiter zu verbessern. Auch die Validierung 
anhand von Kovariaten scheint bei der Erarbeitung von Instrumenten zur Kom- 
petenzerhebung ein vielversprechender Ansatz zu sein. 

Weitere Schritte werden dann die Untersuchung von Kompetenz anhand 
anderer Textarten einschließen, wobei sowohl literarische als auch Sachtexte 
einbezogen werden sollen, sowie die Rolle der untersuchten Kompetenzen im 
Lehramt und das Verhältnis der hier beschriebenen fachwissenschaftlichen 
Kompetenzen zu fachdidaktischen Kompetenzen. Auch wird künftig stärker un- 
tersucht werden, ob sich die Leistung im Laufe etwa eines Semesters hinsichtlich 
des Textverstehens verbessert, indem über zwei Zeitpunkte hinweg getestet wird. 
Auswertungen anderer Erhebungen, bei denen zu zwei Zeitpunkten Gedichte be- 
arbeitet wurden, die ähnliche literarische Phänomene aufwiesen, deuten darauf 
hin, dass dies tatsächlich der Fall ist. 

Die Zusammenarbeit von Fachleuten aus der Literaturwissenschaft und der 
Empirischen Bildungsforschung hat sich bislang als überaus fruchtbar erwiesen. 
Mithilfe der literaturwissenschaftlichen Expertise werden die zum Textverständ- 
nis gehörigen Schritte identifiziert und in Form von relevanten Items umgesetzt. 
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Der Beitrag der Empirischen Bildungsforschung besteht in der statistischen Aus- 
wertung der Ergebnisse sowie der Bereitstellung von Indizes, die zur weiteren in- 
haltlichen Ausdifferenzierung der einzusetzenden Instrumente und letztlich 
auch der Konzeptualisierung von Kompetenz beitragen können und werden. 
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Gabriel Viehhauser 

Digital Humanities ohne Computer? Alte 
und neue quantifizierende Zugänge zum 
mittelhochdeutschen Tagelied 


Abstract: Since it could be argued that for an informative definition of the Digital 
Humanities the term >digital< should not be used in a wide sense of simply »using 
computers« but rather be restricted to the application of formalized methods, the 
question whether there are »Digital Humanities without computers: seems sur- 
prisingly reasonable. In fact, there is a long tradition of quantitative studies in 
literary scholarship, which could - with all its flaws and advantages — be instruc- 
tive for present undertakings in digital Literary Studies. I will discuss such a 
study from the 1970s, Ulrich Knoop’s attempt to define the Middle High German 
lyric genre of the »Tagelied«. In continuation of Knoop I will discuss whether for- 
malized methods are feasible for genre detection and will show that a topic model 
of Middle High German lyric, established with LDA, can help to carve out a profile 
of the Tagelied. However, I will suggest that the notion of »precision«, which ap- 
pears to be a key concept for Knoop, should be re-interpreted in the light of cur- 
rent methodology: Rather than establishing strict categorical boundaries 
between texts, quantitative methods can open up the perspective on the proto- 
typical character of literary genres, which have a closer defined core that is sur- 
rounded by transitional forms on its margins. 


1 


Quantifizierende Zugänge zu den Geisteswissenschaften und im Besonderen zur 
Literatur erleben zurzeit im Rahmen des Forschungsfelds der Digital Humanities 
eine Renaissance. Darüber, was genau zum Umfang und zu den Spezifika der Di- 
gital Humanities gehört, herrscht jedoch oft Unklarheit. Auch die Disziplin selbst 
hat sich an der Frage, was die Digital Humanities denn eigentlich genau sein sol- 
len, intensiv abgearbeitet.' Relativ unbestritten dürfte dabei nur die zunächst in- 
tuitiv erscheinende Feststellung sein, dass es bei den Digital Humanities um den 


1 Stellvertretend für die umfangreiche Forschungsdiskussion verweise ich auf die Webseite 
whatisdigitalhumanities.com, die in einer für die Digital Humanities durchaus als charakteris- 
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Einsatz von Computern geht, mit deren Hilfe geisteswissenschaftliche Fragestel- 
lungen neu angegangen werden. 

Doch erweist sich eine solche Bestimmung schnell als zu wenig präzise, denn 
bekanntermaßen gibt es heutzutage wohl keine Geisteswissenschaftlerinnen und 
Geisteswissenschaftler mehr, die bei ihrer Arbeit ohne den Computer auskom- 
men; dies beginnt schon bei der bloßen Abfassung von Textdokumenten mit 
Hilfe von Textverarbeitungsprogrammen oder bei der Literaturrecherche, die 
über online verfügbare Bibliothekskataloge erfolgt. Da es bei den Digital Huma- 
nities also kaum nur darum gehen kann, konventionelle Arbeitsschritte »digitak 
im Sinne von »computerunterstützt«< durchzuführen, dürfte sich eine Definition 
trennschärfer erweisen, dienach den Besonderheiten der Methoden fragt, mit de- 
nen in den Digital Humanities gearbeitet wird. Vor diesem Hintergrund erscheint 
es mir zielführend, auf den Begriff des Digitalen in einer umfassenderen Form zu 
rekurrieren, als ihn bloß synonym für den Einsatz von Computertechnologie zu 
verwenden: Fasst man das Digitale in seiner ursprünglicheren Bedeutung als >al- 
les Zählbare« oder >alles in Zahlen Ausgedrückte« auf, ginge es bei den digitalen 
Geisteswissenschaften vor allem um den Versuch, die Forschungsgegenstände 
mit Hilfe von Abstrahierungen zu erfassen, die sich auf Zahlen gestützt und damit 
quantifizierend modellieren lassen. Diese Definition könnte auch dahingehend 
umformuliert werden, dass die spezifische Methodik der Digital Humanities da- 
rin besteht, geisteswissenschaftliche Problemstellungen explizit mit Hilfe von 
Formalisierungen zu bearbeiten.? 

Hieran ließe sich aber sogleich die Frage anknüpfen, ob für eine solche for- 
malisierende Modellierung dann der Einsatz von Computern überhaupt unum- 
sänglich ist. Denn schließlich wäre es ja auch denkbar, formalisierende Modelle 


tisch zu bezeichnenden Weise 817 unterschiedliche Definitionen aus der DH-Community gesam- 
melt hat, von denen bei jedem Aufruf der Seite eine per Zufallsgenerator ausgewählt und darge- 
stellt wird. Die Webseite bietet somit keine endgültige Definition, sondern stellt ein umfassendes 
Datenmaterial von Forschungsmeinungen bereit, das dann in der Folge auch mit statistischen 
Methoden ausgewertet werden könnte. Gerade durch die Verweigerung einer definitorischen 
Festlegung wird also in der Praxis vorgeführt, was die Digital Humanities ausmacht. 

2 Natürlich greift jede Form der Computeranwendung, also auch die computerunterstützte 
Textverarbeitung, aufgrund der Arbeitsweise des Computers auf Quantifizierung zurück; doch 
tritt diese methodisch nicht in den Vordergrund. Der hier vorgeschlagene Fokus auf die Forma- 
lisierung soll zudem nicht bedeuten, dass sich die Digital Humanities ausschließlich in der 
Abarbeitung quantifizierender Methoden zu erschöpfen hätten: Gerade aus der Reibung von 
quantifizierenden und qualifizierenden Zugängen ergeben sich meines Erachtens die interes- 
santesten Fragestellungen der digitalen Geisteswissenschaften, was ich in der weiteren Folge 
darlegen möchte. 
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geisteswissenschaftlicher Objekte sozusagen »auf dem Papier«, und ganz ohne 
Einsatz von technischen Hilfsmitteln zu entwickeln.’ Gibt es also Digital Huma- 
nities ohne Computer? Auch wenn man einwenden könnte, dass sich die wahren 
Möglichkeiten der Digital Humanities vielleicht erst daraus ergeben, dass mit 
Hilfe des Computers Berechnungen vorgenommen werden, die die menschliche 
Leistungsfähigkeit übersteigen und gerade daraus der methodische Mehrwert er- 
wächst, so erscheint mir diese zunächst paradox anmutende Fragestellung kei- 
nesfalls obsolet. Nicht zuletzt öffnet sie den Blick dafür, dass sich auch die gerne 
mit dem Nimbus des Neuartigen versehenen Digital Humanities in eine längere 
Tradition formalisierender Ansätze einordnen lassen, weshalb es für die Diszip- 
lin durchaus instruktiv sein könnte, Forschungsarbeiten in Erinnerung zu rufen, 
die sich schon vor der Allgegenwärtigkeit digitaler Maschinen an quantifizieren- 
den Zugängen versucht haben - nicht zuletzt deshalb, um Anknüpfungspunkte 
für die eigene Forschung zu finden, alte methodische Fäden wieder aufzugreifen 
und bereits gegangene Irrwege zu vermeiden. 

Vor diesem Hintergrund möchte ich im Folgenden eine solche Arbeit exem- 
plarisch herausgreifen, nämlich die 1971 als Qualifikationsschrift eingereichte 
und 1976 im Druck erschienene Dissertation von Ulrich Knoop zum mittelhoch- 
deutschen Tagelied,“ die ich in einem zweiten Teil meines Aufsatzes als Anre- 
gung für eine eigene Auswertung zu dieser Untergattung der mittelalterlichen Ly- 
rik heranziehe. 


2 


Knoop hatte sich in seiner Dissertation zur Aufgabe gesetzt, das mittelhochdeut- 
sche weltliche Tagelied, also eine prominente Spielart des deutschen mittelalter- 
lichen Minnesangs, in ihren gattungsgeschichtlichen Umrissen zu definieren 


3 Vergleiche die ähnlichen Überlegungen bereits bei Jan-Christoph Meister: »Projekt Computer- 
philologie. Über Geschichte, Verfahren und Theorie rechnergestützter Literaturwissenschaft«, 
in: Digitalität und Literalität. Zur Zukunft der Literatur, hg. v. Harro Segeberg und Simone Winko. 
München 2005, S. 315-341, hier S. 320-321. 

4 Ulrich Knoop: Das mittelhochdeutsche Tagelied. Inhaltsanalyse und literarhistorische Untersu- 
chung. Marburg 1976. Die Abfassung der Arbeit fällt damit in die Blütezeit der empirischen Lite- 
raturwissenschaft in den 1970er Jahren, die in einer Situation erfolgt, »in der die Legitimations- 
krise der Literaturwissenschaft einen ersten Höhepunkt erreicht hatte«, vgl. hierzu den 
Überblick bei Achim Barsch, Gebhard Rusch und Reinhold Viehoff: »Einleitung«, in: Empirische 
Literaturwissenschaft in der Diskussion, hg. v. dens. Frankfurt a. M. 1994, S. 9-20, Zitat S. 10. 
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und ihren Konstituenten zu bestimmen, und zwar genauer, als dies seiner Mei- 
nung nach bislang in der Forschung der Fall war. Denn wahrend sich die thema- 
tische Grundkonstellation des Tagelieds relativ einfach angeben lässt - im Zen- 
trum stehen zwei Liebende, in der höfischen Literatur ein Ritter und seine Dame, 
die sich nach gemeinsam verbrachter Nacht trennen müssen, da ihre Liebe gegen 
die gesellschaftlichen Konventionen verstößt — erschienen Knoop die bisherigen 
Definitionsversuche als zu stark durch »Dehnbarkeit« geprägt und terminolo- 
gisch unscharf: So bestehen etwa Abgrenzungsprobleme zur so genannten 
»Alba«, der romanischen Spielart des Tageliedes, und zur Gruppe der »Wächter- 
lieder«, bei denen die Figur des Wächters, die den bevorstehenden Tagesanbruch 
ankiindigt, mehr oder weniger im Zentrum steht.’ 

Auch erschienen Knoop die Tagelieder in der bisherigen Forschung in ihren 
thematisch-inhaltlichen Komponenten zu wenig genau bestimmt. Zwar gibt es 
ein immer wieder genanntes Arsenal von Motiven, das als konstitutiv für das Ta- 
gelied angesehen wird, etwa den Weckruf des Wächters, der den Tag ankündi- 
sende Vogelsang, die Reflexion der Liebenden im Gespräch, ihre Liebesbeteue- 
rungen und ihre letzte körperliche Zusammenkunft zum Abschied oder die Klage 
der verlassenen Frau, doch bleibt im einzelnen unklar, welche dieser Elemente 
notwendigim Tagelied vorkommen müssen und mit welchen Anteil sie auftreten. 

Knoop hielt daher eine erneute genaue Sichtung des Tagelied-Materials für 
unerlässlich, dies umso mehr, als sich an das Auftreten dieser Motive diverse li- 
teraturgeschichtliche Forschungsfragen knüpfen - etwa die Ab- oder Unabhän- 
gigkeit des deutschen Tagelieds von der romanischen Lyrik oder die gattungsge- 
schichtliche Entwicklung der für die mittelhochdeutsche Variante auffällig 
zentralen Wächterfigur. 

Aus diesen Vorannahmen entwickelte Knoop die Zielsetzungen seiner Stu- 
die: 1. die »Aufstellung aller mittelhochdeutscher Tagelieder, sowie tageliedähn- 
licher Lieder«, 2. eine »relationale Analyse des Materials« und 3. eine »Definition 
des mittelhochdeutschen Tageliedes«.° 

Knoops Programm zielt also, so lässt sich an dieser Stelle bereits festhalten, 
insbesondere auf Genauigkeit und Vollständigkeit bzw. Repräsentativität ab, 
zwei Ansprüche, die gemeinhin mit quantifizierenden Methoden verbunden wer- 
den. Dennoch wollte Knoop mit seiner Arbeit keinesfalls einem unreflektierten 
szientistischen Verständnis der Geisteswissenschaften das Wort reden, wie er im 
Vorwort zu seiner Studie deutlich macht: 


5 Knoop: Das mittelhochdeutsche Tagelied, S. 3-6. 
6 Ebd., S. 26. 
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Die hier angewandte Systematik gründet allerdings nicht auf der Prämisse, daß von der Li- 
teraturwissenschaft insgesamt der Grad an Exaktheit gefordert werden müsse, den die Na- 
turwissenschaften erfüllen können, sie wird vielmehr nur als ein Hilfsmittel für die Materi- 
aldarstellung angesehen, einem Bereich also, in dem Formalisierung und Quantifizierung 
durchaus legitime Mittel sind.’ 


Bemerkenswert erscheint mir an dieser programmatischen Äußerung Knoops 
zweierlei: Zum einem die Eingrenzung des Geltungsbereichs quantifizierender 
Methoden auf einen Bereich, den man als Analyseebene bezeichnen und von ei- 
ner Ebene der Interpretation abheben könnte, zum anderen die Qualifizierung 
seiner systematischen Bemühungen als (bloßes) Hilfsmittel. Dass die Anwen- 
dung von Formalisierungen ihre besten Finsatzmöglichkeiten vor allem auf einer 
vergleichsweise objektiven Analyseebene haben, die »unter< der »eigentlichen« 
Zielsetzung der Literaturwissenschaft liegt, erinnert durchaus an entsprechende 
Diskussionen in den Digital Humanities (aber auch beispielsweise in der Narra- 
tologie): Zweifellos lassen sich bestimmte Texteigenschaften in einer objektiv- 
empirischen Weise an der Textoberfläche ablesen, und hierfür erscheint der Ein- 
satz von Computern gut geeignet. Bedeutungszuschreibungen jedoch, die dar- 
über hinausgehend auf der Einbeziehung von Kontext und Weltwissen beruhen, 
sind dagegen immer mit Unschärfen belastet und vom Beobachter abhängig; 
gleichwohl stellen solche über die Empirie hinausgehenden Interpretationen das 
eigentliche Kerngeschäft der Literaturwissenschaft dar, das sich in höherem 
Maße der digitalen Modellierung entzieht, die demgegenüber bloß Hilfswissen- 
schaft bleiben müsste.’ Eine allzu große Rigidität in der Hierarchisierung der bei- 
den Ebenen ist jedoch schon in der Studie Knoops nicht zu beobachten, denn 
schließlich sah Knoop seine Arbeit als essentiell für die weiterführende Beschäf- 
tigung mit literaturwissenschaftlichen Fragestellungen um das Tagelied an, da 
er auf seine Materialanalyse weitreichende interpretatorische Folgerungen 


7 Ebd., S.7. 

8 Vgl. Friedrich Michael Dimpel: »Der Computerphilologe als Interpret - ein Teilzeit-Empiri- 
ker?«, in: Literatur interpretieren. Interdisziplinäre Beiträge zur Theorie und Praxis, hg. v. Jan Bor- 
kowski, Stefan Descher, Felicitas Ferder und Philipp David Heine. Münster 2015, S. 339-359; 
speziell zur Narratologie Janina Jacke: »Is There a Context-Free Way of Understanding Texts? 
The Case of Structuralist Narratology«, in: JLT 8.1 (2014), S. 118-139; und insbesondere Stephen 
Ramsay: »Algorithmic Criticism«, in: A Companion to Digital Literary Studies, hg. v. Ray Siemens 
und Susan Schreibman. Oxford 2008, http://www.digitalhumanities.org/companionDLS/ 
(27. Oktober 2017). Knoop selbst bezieht sich bei seiner Ebenentrennung auf den Positivismus- 
begriff bei Rolf Grimminger: »Zu einer Poetik der Typen«, in: Werk - Typ - Situation. Studien zu 
poetologischen Bedingungen in der älteren deutschen Literatur (Festschrift für Hugo Kuhn), hg. v. 
Ingeborg Glier. Stuttgart 1969, S. 371-381; vgl. Knoop: Das mittelhochdeutsche Tagelied, S. 36. 
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stiitzte, die zum Teil durch die Vorannahmen seiner quantifizierenden Analyse 
wesentlich determiniert sind. 

Wo genau die Trennlinie zwischen Analyse und Interpretation anzusetzen ist 
und vor allem inwieweit eine formale Analyse die Interpretation bereits festlegt, 
lässt sich nicht immer so einfach feststellen: Schließlich widersetzt sich schon 
die bloße Materialdarstellung in manchen Bereichen einer eindeutigen Formali- 
sierung. Dies lässt sich etwa an Knoops Zusammenstellung des Korpus ersehen, 
das er für seine klarere Neubestimmung des Tageliedes heranziehen wollte: Wie 
erwähnt ging es Knoop nicht nur um eine » Aufstellung aller mittelhochdeutscher 
Tagelieder«, sondern auch aller »tageliedähnlicher Lieder«’, was die von ihm 
monierte »Dehnbarkeit« des Gattungsbegriffs erneut ins Spiel bringt. Denn wie 
grenzen sich Tagelieder von tageliedähnlichen Liedern ab und wie weit reicht der 
Bereich der Tageliedähnlichkeit, wenn man den Nachweis der Gattungsdefini- 
tion und -konstitution erst erbringen muss? Angesprochen ist hier letztlich ein 
Grundproblem der literaturwissenschaftlichen Gattungsforschung, dass nämlich 
Gattungen zumeist bloß prototypensemantisch zu bestimmen sind, da es zwar 
typische Vertreter eines Genres gibt, die im Zentrum der Gattung stehen, dazu 
aber an den Rändern Übergangsformen, die sich immer weiter vom Kernbereich 
entfernen. 

Knoops Lösung des Problems bleibt nicht ohne Zirkelschluss, denn als Aus- 
gangspunkt seiner Untersuchung stellt er ein Verzeichnis der Tagelieder und ta- 
geliedähnlichen Lieder zusammen, das bereits auf einem Vorverständnis der Gat- 
tung beruht und zum Teil sogar mit den Ergebnissen der zuvor gescholtenen 
früheren Tageliedforschung gerechtfertigt wird:" In das Korpus werden nämlich 
alle Lieder aufgenommen, die gewisse Grundkonstituenten »in irgendeiner 


9 Knoop: Das mittelhochdeutsche Tagelied, S. 26. 

10 Vgl. hierzu Rüdiger Zymner: Lyrik. Umriss und Begriff. Paderborn 2009, S. 144-151; Klaus 
Willi Hempfer: »Generische Allgemeinheitsgrade«, in: Handbuch Gattungstheorie, hg. v. Rüdiger 
Zymner. Stuttgart 2010, S. 15-19. Nach Hempfer sollen lediglich transhistorisch invariante gene- 
rische »Schreibweisen« als Prototypen aufgefasst werden, während sich für die historischen 
Ausprägungen der Gattungen (wie etwa das mittelhochdeutsche Tagelied) der Wittgenstein’sche 
Begriff der >Familienahnlichkeit« anbiete, S. 18. Dennoch gehe ich im Folgenden von der spezi- 
fischen historischen Formation des mittelhochdeutschen Tagelieds aus, das ich jedoch nicht als 
einzige prototypische Möglichkeit der Gattung absolut setzen will. 

11 Auf diesen Zirkelschluss weist bereits Peter Kesting in seiner Rezension der Arbeit Knoops 
hin (in: ZfdA 108 [1979], S. 10-14, hier S. 12). 
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Weise realisieren«, die Knoop selbst zuvor zusammengetragen hat,” und zwar 
nach Maßgabe, wie sich diese Konstituenten »aus den Vorarbeiten und der eige- 
nen Anschauung als Grundlage der Kompetenz ergeben«.” 

Knoop war sich der Gefahr dieses Zirkelschlusses durchaus bewusst, sah sich 
zu seinem Vorgehen aber aufgrund der besonderen Uberlieferungslage der mit- 
telhochdeutschen Lieder gezwungen. Offensichtlich schwebte ihm eigentlich 
— in durchaus moderner Weise - eine statistische Analyse des mittelhochdeut- 
schen Liedkorpus vor, die im jedoch aufgrund des zu wenig umfangreichen Da- 
tenmaterials als unmöglich erschien: 


Grundsätzlich ist natürlich eine Methode zu fordern, die aus dem vorhandenen Gesamtma- 
terial (also alle Lieder dieser Epoche) ein Corpus auswählt und an diesem eine Inhaltsana- 
lyse durchführt. Als Ergebnis müßte hierbei eine Gruppe von Liedern erkennbar sein, die 
signifikante, gemeinsame Abweichungen aufweisen. Dieses Verfahren ist deshalb nicht an- 
wendbar, weil der Umfang des Materials den Bedingungen eines statistisch relevanten 
Querschnitts nicht genügt." 


12 Knoop: Das mittelhochdeutsche Tagelied, S. 46. Woraus der maßgebliche Katalog der Grund- 
konstituenten besteht, wird nicht ganz klar, da Knoop einmal die Konstituenten »Personen«, »An- 
zeichen des Morgens«, »Wecken/Aufwachen«, »Erotik< und »Abschied« nennt (S. 38), die dann 
später zum Set »Ritter«, »Frau«, »Wächter«, »Anzeichen des Morgens«, »Wecken / Aufwachen, 
»Erotik«, »Trauer«, »Gefahr< und »Abschied« erweitert werden, vgl. S. 41. 

13 Knoop: Das mittelhochdeutsche Tagelied, S. 41. Die Formulierung »in irgendeiner Weise rea- 
lisieren« bleibt in Hinblick auf Knoops Genauigkeitsanspruch auffällig vage, was offensichtlich 
nicht auf Nachlässigkeit beruht, sondern pragmatische Gründe hat: denn die naheliegende 
Gleichsetzung der Formulierung mit der Spezifizierung >alle Lieder, die zumindest eine der Kon- 
stituenten enthalten« entfällt, da etwa die Konstituenten >Ritter< und »Frau«, aber auch >Trauer< 
oder »Gefahr: allein gar nicht spezifisch für das Tagelied sind. Entscheidend für die Aufnahme 
in das Korpus dürfte wohl eine Kombination aus notwendigen und akzidentellen Konstituenten 
sein; diese Kombination genauer zu bestimmen, hätte aber bereits einer näheren Gattungsbe- 
stimmung bedurft, die ja eigentlich erst geleistet werden soll. 

14 Knoop: Das mittelhochdeutsche Tagelied, S. 46. Die Reflexion über den behandelten Materi- 
alumfang führt Knoop dann auch dazu, seinen Vollständigkeitsanspruch aufzugeben, denn in 
weiterer Folge nimmt er zur Rechtfertigung seines zirkulären Vorgehens eine Einschränkung des 
Untersuchungsgegenstandes vor: »Die Gefahr, durch die Bestimmung des Corpus Vorentschei- 
dungen über die zu ermittelnden Konstituenten zu treffen, wird außerdem durch die geringe 
Materialmenge reduziert: die Untersuchung erhebt ja nicht den Anspruch, alle Tagelieder des 
Mittelhochdeutschen zu untersuchen - also letztlich das Tagelied des Mittelhochdeutschen 
überhaupt herauszuarbeiten - , sondern nur die, die auf uns gekommen sind. Sicherlich kann 
man aufgrund des tatsächlich vorhandenen Materials auf das literarische Gesamt dieser Epoche 
schließen, aber dies ist Sache einer Vermutung.« Auch diese Erkenntnis erscheint mir (trotz ei- 
niger argumentativer Unschärfen im Detail) für weitere quantitative Auswertungen zur mittel- 
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Ich möchte im nächsten Abschnitt anhand einer eigenen Auswertung des Lied- 
korpus der Frage nachgehen, ob man sich einer solchen methodisch geleiteten 
Auswahl der Tagelieder aus dem vorhandenen Gesamtmaterial nicht doch zu- 
mindest annähern kann. Zuvor ist es jedoch noch nötig, näher auf das Verfahren 
einzugehen, das Knoop Inhaltsanalyse nennt und das ihm zur Grundlage seiner 
Materialdarstellung dient. 

Obwohl der Terminus »Inhaltsanalyse« an methodisch ausdifferenzierte 
Analyseverfahren der Sozialwissenschaften erinnert und Knoops Vorgangsweise 
im einzelnen diesen nicht unähnlich ist,” bezieht Knoop die Inspiration für seine 
Materialdarstellung aus einer anderen Disziplin, nämlich der Textlinguistik,'° de- 
ren Alleinvertretungsanspruch in Gattungsfragen” er allerdings aus literaturwis- 
senschaftlicher Sicht für ergänzungsbedürftig hält: Eine Textanalyse kann sich 
nach Knoop nicht allein auf elementare linguistische Einheiten stützen, sondern 
muss auch umfassendere literaturwissenschaftliche Kategorien in Betracht zie- 
hen." Dies führt Knoop dazu, bei seiner Gattungsanalyse einen umfassenden, 
multi-facettierten Zugang zu wählen,” der sich nicht, wie dies bei einer quantifi- 
zierenden Gattungsbestimmung vielleicht nahe liegt und etwa im Rahmen der 
stilometrischen Forschung auch im Kontext der Digital Humanites erprobt 


hochdeutschen Literatur bzw. für Gattungsanalysen instruktiv: Vollständigkeit lässt sich nur so- 
weit anstreben, wie es die Überlieferung zulässt. Zudem dürfte der Versuch, »alle« Texte einer 
Gattung zu erfassen, in den meisten Fällen an den unscharfen Gattungsrändern scheitern, denn 
»das Tagelied des Mittelhochdeutschen überhaupt: ist eine prototypische Idealvorstellung. 

15 Vgl. zu diesen Verfahren unter der Perspektive eines möglichen Methodentransfers auf die 
Literaturwissenschaft Thomas Anz: »Inhaltsanalyse«, in: Handbuch Literaturwissenschaft, Bd. 1: 
Gegenstände und Grundbegriffe, hg. v. dems. Stuttgart, Weimar 2007, S. 55-69. 

16 Und zwar in Gestalt der Studie von Götz Wienold: »Probleme der linguistischen Analyse des 
Romans. Zugleich eine Studie zu Kriminalromanen Patricia Highsmiths«, in: Jahrbuch für Inter- 
nationale Germanistik 1.1 (1969), S. 108-128, die sich mit einer textlinguistisch basierten Katego- 
risierung des Kriminalromans befasst. 

17 Ich gehe hier nicht auf die Frage ein, ob ein solcher tatsächlich oder nur vermeintlich besteht; 
Knoop gründet seine Einschätzung offensichtlich vor allem aufden Aufsatz von Wienold: »Prob- 
leme der linguistischen Analyse des Romans«. 

18 Vgl. Knoop: Das mittelhochdeutsche Tagelied, S. 27-35. 

19 Zu einem multi-facettierten Gattungsmodell in den Digital Humanities vgl. Christoph Schöch 
und Steffen Pielström: »Für eine computergestützte literarische Gattungsstilistik«, 1. Jahresta- 
gung der Digital Humanities im deutschprachigen Raum (DHd). Universität Passau, 
25.-28. März 2014, https://www.researchgate.net/profile/Steffen_Pielstroem/publication/2800 
88316_Fur_eine_computergestutzte_literarische_Gattungsstilistik/links/55a7acbeO8aeceb8cad 
65b5e/Fuer-eine-computergestuetzte-literarische-Gattungsstilistik.pdf (27. Oktober 2017). 
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wurde,” auf bloße stilistische Auswertungen verlässt, sondern gerade die inhalt- 
lichen Motive, die so genannten »Konstituenten«, zentral stellt. 

Knoop treibt dabei die Formalisierung so weit, dass er versucht, sein Modell 
auch in regelrechten Formeln darzustellen. So bestimmt sich ein literarischer 
Text (D) etwa aus dem Zusammenspiel von literarischen Kategorien (K) und 
sprachlichen Zeichen (M).” Innerhalb der Menge von D lässt sich die Teilmenge 
DG näher betrachten, »deren Texte ganz bestimmte Bildungsgesetze aufweisen: 
die Gattungen.«” Eine Gattung »zeichnet sich durch einen konstanten Kern von 
bestimmten Kategorien (K’) und frei hinzutretenden Kategorien (K)« aus. Diese 
Kategorien werden wiederum aufgeschlüsselt in die vier Klassen »Inhalt« (A), 
»Reimschema« (B), »Strophik« (C), »Versmaß« (D), so dass sich etwa für die Gat- 
tung des Sonetts folgende Formel ergeben würde: DG(SO) (A; B’, Ci2, D’ ... / M), 
wobei Cıund C2die beiden formalen Möglichkeiten des Strophenbaus (zwei Quar- 
tette und zwei Terzette bzw. drei Quartette und ein Duett) angeben. 

Das Tagelied sieht Knoop demgegenüber vor allem inhaltlich bestimmt, es 
hat die Formel DG(TL) (Aı-...; B, C, D ... /M), wobei Ais die auch der Materialaus- 
wahl zugrunde liegenden inhaltlichen bzw. motivlichen Konstituenten sind.” Die 
offen gelassenen Stellen in der Formel, die graphisch mit Punkten wiedergege- 
ben werden, sollen Platz für die Auffüllung mit »epochalen[n] Varianten« bieten, 
wodurch dem Wandel von Gattungen in ihrer geschichtlichen Entwicklung Rech- 
nung getragen werden kann.” 


20 Vgl. hierzu etwa Matthew Jockers: Macroanalysis. Digital Methods and Literary History. 
Champaign 2013; Fotis Jannidis und Gerhard Lauer: »Burrow’s Delta and Its Use in German Lit- 
erary History«, in: Distant Readings. Topologies of German Culture in the Long Nineteenth Century, 
hg. v. Matt Erlin und Lyyne Tatlock. Rochester 2014, S. 29-54; Christoph Schöch: »Corneille, Mo- 
liere et les autres. Stilometrische Analysen zu Autorschaft und Gattungszugehörigkeit im fran- 
zösischen Theater der Klassik«, in: Literaturwissenschaft im digitalen Medienwandel, hg. v. Chris- 
tof Schöch und Lars Schneider. Berlin 2014, S. 130-157 oder Lena Hettinger, Martin Becker, 
Isabella Reger, Fotis Jannidis und Andreas Hotho: »Genre Classification on German Novels«, 
26th International Workshop on Database and Expert Systems Applications (DEXA), Valencia, 
2015, http://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=7406301&isnumber=7406238 
(27. Oktober 2017), S. 249-253. 

21 Bei Knoop: Das mittelhochdeutsche Tagelied, S. 37, in der Formel gefasst: D (K / M). 

22 Ebd., S. 37. Unklar bleibt, ob das heißen soll, dass es neben der Teilmenge DG andere Teil- 
mengen in G gibt, also Texte ohne Gattungen. Eher dürfte wohl DG eine nähere Spezifizierung 
vonD sein. 

23 Vgl. zu den Konstituenten im einzelnen Anm. 12. 

24 Knoop: Das mittelhochdeutsche Tagelied, S. 39. 
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Ein Problem bei der hier dargestellten Inhaltsanalyse — und hier ist das Ver- 
fahren der sozialwissenschaftlichen Inhaltsanalyse durchaus vergleichbar — be- 
steht nun darin, dass die Konstituenten der Kategorie A nicht direkt beobachtbar, 
sondern nur auf der Textoberfläche in den sprachlichen Zeichen Si, S: ... Sn reali- 
siert sind, durch die sich der Formelbestandteil M näher spezifizieren lässt.” Die 
Unterpunkte von A stellen also Konzepte dar, auf die nur mit einem gewissen 
Grad an Interpretation geschlossen werden kann. Zur Überprüfung der Richtig- 
keit dieser Schlüsse deutet Knoop ein Validierungsverfahren an, bei dem die an 
»eine[r] gewisse[n] Menge von Liedern« gewonnenen Konstituenten »dann an 
anderen Liedern geprüft werden könnten.” 

Die Herstellung einer solchen construct validity” führte Knoop allerdings 
selbst nicht aus, wie überhaupt die konkrete Durchführung seiner Inhaltsanalyse 
mit einigen Unklarheiten, zirkulären Vorannahmen und Inkonsequenzen belas- 
tet ist.? Konkret ging Knoop so vor, dass er den Text in sprachliche Elemente (und 
das heißt bei Knoop — unausgesprochen - zumeist: in Wörter) zerlegt, bestimmte 
Elemente aus der Analyse aber ausschließt” und die Segmente schließlich Kate- 
gorien zuweist, deren Zustandekommen schon deswegen nicht recht klar wird, 
da die einzelnen Kategorien mit nicht aufgelösten Buchstabenkürzeln wiederge- 
geben werden.” In einem zweiten Analyseschritt werden dann sich wiederho- 
lende bzw. ähnelnde Kategorien zusammengezogen.” Selbst wenn man die Un- 
sauberkeiten beiseite lässt, die Knoop unglücklicherweise unterlaufen sind, wird 


25 Ausdifferenziert lautet die Formel daher DG(TL) (A:5...; B, C, D ... / Si, Sa ... Sn), vgl. Knoop 
S. 39 (im Original »Aı.ı«, wobei es sich allerdings um einen Druckfehler handeln dürfte). 

26 Knoop: Das mittelhochdeutsche Tagelied, S. 40. 

27 So der entsprechende Terminus in der sozialwissenschaftlichen Inhaltsanalyse, vgl. Klaus 
Krippendorff: Content Analysis. An Introduction to Its Methodology. Thousand Oaks ?2004, S. 315. 
28 Vgl. hierzu auch die Rezension von Kesting: Rezension zu Knoop. 

29 Etwa Artikel und Präpositionen, »da sie in Bezug auf die Konstituenten des Tageliedes kei- 
nen Aussagewert haben«, Knoop: Das mittelhochdeutsche Tagelied, S. 40. 

30 Ein Beispiel mag die Vorgangsweise verdeutlichen (soweit dies angesichts der angesproche- 
nen Unklarheiten möglich ist): Im dritten Lied des Bruno von Hornberg, dessen Analyse Knoop 
zur Exemplifizierung seiner Methode ausführlicher darstellt, lautet die erste Zeile der zweiten 
Strophe: Der rede ein schoene wip erschrac (In heutigem Deutsch: Über diese Worte/Äußerung 
[also die Warnrede des Wächters, die Inhalt der ersten Strophe ist] erschrak eine schöne Frau). 
Aus der Zeile extrahiert Knoop (S. 42) folgende »mögliche Segmente«: »rede«, »erschrac« und 
»F« (was offensichtlich für »Frau< stehen soll). Daraus wird schließlich die Codierung: 
»(W) RE: F (= Wächter redet zur Frau); F ES . W (Frau erschrickt gegen Wächter)« 

31 Wie aus dem Beispiel in der Anmerkung zuvor ersichtlich, wird das Wort »rede« zunächst der 
Kategorie RE zugeordnet, dazu das Wort »sprach« aus einer folgenden Zeile der Kategorie SP, was 
offensichtlich für »sprechen« oder »Sprache« stehen soll. In einem zweiten Schritt wird dann die 


Alte und neue quantifizierende Zugänge zum mittelhochdeutschen Tagelied — 183 


deutlich, dass das Verfahren mit erheblichen subjektiven Entscheidungen ein- 
hergeht. Einmal mehr vermischen sich Analyse- und Interpretationsebene. 

Knoop war sich dessen auch bewusst, hielt es aber fiir einen der Vorziige sei- 
ner Methode, dass seine Kategorisierungsentscheidungen explizit gemacht wer- 
den und daher immer zumindest intersubjektiv diskutierbar bleiben.” Auch hier 
zeigt sich, dass in Knoops Studie in mancher Hinsicht heute gängige Denkmuster 
der Digital Humanities bereits angesprochen sind, denn auch in den digitalen Li- 
teraturwissenschaften wird gegenwärtig der Mehrwert semantischer Annotatio- 
nen vor allem darin gesehen, dass sie in den konventionellen Spielarten des 
Fachs unausgesprochene Vorannahmen explizit machen und zu einer genauen 
Überprüfung der zugrunde gelegten Konzepte und deren praktischer Anwend- 
barkeit zwingen.” 

Im Anschluss an seine Kategorisierung der Textelemente fasste Knoop die 
einzelnen Kategorien nach Texten aufgeschlüsselt in Listen zusammen,” die 
dann als Grundlage für seine weitere Untersuchung des Tagelieds dienen: So 
werden etwa gattungsgeschichtliche Konjunkturen der einzelnen Konstituenten 
herausgearbeitet, indem die kategorisierten Texte in eine zeitliche Ordnung ge- 
bracht” oder die Texte nach der Ähnlichkeit ihrer Kategorienstruktur geclustert 


Kategorie RE »gelöscht«, da die beiden Elemente »denselben Inhalt« haben, und durch SP er- 
setzt. Knoop: Das mittelhochdeutsche Tagelied, S. 42-44. 

32 Vgl. Knoop: Das mittelhochdeutsche Tagelied, S. 40. Insofern ist es besonders bedauerlich, 
dass diese Nachvollziehbarkeit durch die Schwächen der Darstellung gerade nicht gegeben ist. 
33 Vgl. hierzu etwa Andrea Rapp: »Manuelle und automatische Annotation«, in: Digital Huma- 
nities. Eine Einführung, hg. v. Fotis Jannidis, Hubertus Kohle und Malte Rehbein. Stuttgart 2017, 
S. 253-267, hier S. 256 und 261; sowie die Ergebnisse des Hamburger heureCLEA-Projekts, dar- 
gestellt in Thomas Bögel, Michael Gertz, Evelyn Gius, Janina Jacke, Jan Christoph Meister, Marco 
Petris und Jannik Strötgen: »Collaborative Text Annotation Meets Machine Learning: heu- 
reCLEA, a Digital Heuristic of Narrative«, in: DHCommons Journal 1 (2015), http://dhcom- 
mons.org/journal/issue-1/collaborative-text-annotation-meets-machine-learning-heu- 
recl%C3%A9-digital-heuristic (27. Oktober 2017). 

34 Wobei er sich im Vorwort zu seiner Studie zu der unglücklichen Bemerkung hinreißen lässt, 
dass diese Listen »für sich sprechen sollen und eben gerade keiner erneuten Erläuterung bedür- 
fen«, Knoop: Das mittelhochdeutsche Tagelied, S. VII. 

35 Vgl. Knoop: Das mittelhochdeutsche Tagelied, S. 99-124. Freilich ist auch die Aufstellung ei- 
ner zeitlichen Ordnung mittelhochdeutscher Liederdichter nicht unproblematisch, da sie durch 
die schlechte Quellenlage erschwert wird: Die Entstehungsdaten der üblicherweise undatiert 
überlieferten Lieder können nur über die Lebensdaten der Autoren erschlossen werden, die je- 
doch lediglich in wenigen Fällen mit einiger Sicherheit bekannt sind. Zu Inkonsequenzen im 
einzelnen vgl. Kesting: Rezension zu Knoop, S. 12. 
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werden.” Diese Ahnlichkeits-Cluster dienen Knoop in der weiteren Folge als Aus- 
gangspunkt dazu, die angekündigten literaturgeschichtlichen Fragestellungen 
nach der Sonderstellung einzelner Werkgruppen bzw. von literaturgeschichtli- 
chen Abhängigkeiten des Tagelieds zu beantworten. Im Rahmen dieser Vor- 
gangsweise wird zum Beispiel die in der Forschung vieldiskutierte Streitfrage, ob 
Wolfram von Eschenbach das Tagelied in die mittelhochdeutsche Literatur ein- 
geführt hat, aufgrund der strukturellen Sonderstellung der Lieder verneint.” 
Auch dieser Schluss von der Textstruktur auf literarische Abhängigkeiten bleibt 
natürlich nicht unproblematisch und voraussetzungslos, sondern setzt eine In- 
terpretation des Befundes der Inhaltsanalyse voraus. 

Die angekündigte genauere Definition des Tageliedes schließlich, die das ei- 
gentlich Ergebnis der Arbeit sein sollte, bringt aufgrund des vorausgesetzten Zir- 
kelschlusses wenig Neues. Dementsprechend stellt Kesting in seiner Rezension 
der Arbeit die Frage, ob »sich der ganze formalistische Aufwand [...] für solche 
Erkenntnisse gelohnt« habe,” ein Vorwurf, der auch in heutiger Zeit nicht selten 
gegen Studien der Digital Humanities eingebracht wird. Auch hier zeigt sich also 
Kontinuität. 

Es kommt mir hier in diesem Zusammenhang nicht mehr im Detail auf die 
(weit umfangreicheren) Ergebnisse von Knoop an, es dürfte aber bereits deutlich 
geworden sein, dass sich zahlreiche Verbindungslinien von Knoops Studie zu 
heutigen, digital-quantitativen Arbeiten ziehen lassen, die ich als Zwischenfazit 
in Form von Spannungsfeldern reformulieren möchte: Da ist zum ersten das 
Spannungsfeld von (objektiver) Analyse und Textinterpretation, dessen sich, wie 
Knoops Studie beweist, empirisch arbeitende Literaturwissenschaftlerinnen und 
Literaturwissenschaftler in der Regel bewusst sind. Dennoch gelingt es in den 
meisten Fällen nicht, diese beiden Ebenen vollständig separat zu behandeln, da 
die Analyse immer wieder in Interpretation umschlägt bzw. durch diese ergänzt 
werden muss, um zu literaturwissenschaftlich relevanten Fragestellungen vorzu- 
dringen. 

Zum zweiten zeigt sich das Spannungsfeld von einem höheren Grad an Ex- 
plizierung, welches formalisierte Methoden mit sich bringen, und der Schwierig- 
keit der genauen Dokumentation der Vorgangsweise, die sich an Knoops zwar 
formal-präziser, aber dann im Detail doch immer wieder unscharfer Darstel- 
lungsweise zeigt. Diese beiden Spannungsfelder sind wohl nicht unabhängig 


36 Vgl. Knoop: Das mittelhochdeutsche Tagelied, S. 151-155. 
37 Vgl. ebd., S. 165. 
38 Vgl. Kesting: Rezension zu Knoop, S. 13. 
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voneinander zu sehen, denn gerade Knoops Unschärfe im Detail dürfte auch da- 
rauf zurückzuführen sein, dass sich sein Material einer vollständigen analyti- 
schen Formalisierung entgegenstellt, weshalb implizit interpretatorische 
Schritte (wie etwa der Schluss vom sprachlichen Material auf dahinterliegende 
Konzepte oder eben Kategorien) mehr oder weniger verschleiert über die Hinter- 
tür wieder mit eingebracht werden. Und schließlich steht der Präzision in defini- 
torischen Fragen auch eine gewisse »Unschärfe« geisteswissenschaftlicher Be- 
sriffe gegenüber, die sich in vielen Fällen etwas deutlicher als Prototypen- 
haftigkeit bestimmen lässt: Beispiel dafür sind Gattungen wie das Tagelied, das 
sich an den Rändern der Gattung nicht scharf von »tageliedähnlichen Liedern« 
abgrenzen lässt. 


3 


Einen Vorschlag, wie auf quantitativem Weg mit einer solchen »Unschärfe: um- 
gegangen werden kann, möchte ich im Folgenden anhand einer eigenen Analyse 
eines umfassenden mittelhochdeutschen Minnesangkorpus einbringen (einen 
Überblick über die erfassten Lieder bietet Tabelle 1 im Anhang). Ich greife dazu 
Knoops Ansatz wieder auf, das Tagelied vor allem inhaltlich-motivisch zu bestim- 
men (und klammere damit vorläufig die Möglichkeit aus, dass sich Gattungen im 
Sinne eines multi-facettierten Modells auch durch andere Parameter festlegen 
lassen). Ausgangspunkt ist dabei der von Knoop angedachte, aber von ihm - wie 
oben zitiert - als undurchführbar eingeschätzte Versuch, aus dem Gesamtkorpus 
der Lieder eine Textgruppe zu isolieren, die sich durch gemeinsame Abweichun- 
gen gegenüber den restlichen Liedern abgrenzt, um so dem Zirkelschluss zu ent- 
gehen, dass jede Zusammenstellung eines Gattungskorpus immer schon auf Vor- 
annahmen über die jeweilige Gattung beruht. 


39 Da mittelhochdeutsche Texte nur handschriftlich überliefert sind und eine uneinheitliche 
Orthographie aufweisen, die in den wissenschaftlichen Ausgaben zum Teil von unterschiedli- 
chen Herausgebern unterschiedlich normalisiert wurden, habe ich mich bei der Auswahl der 
Texte auf die einigermaßen homogenen Anthologien Minnesangs Frühling, Carl von Kraus Lie- 
derdichter und Schweizer Minnesänger konzentriert, die zusammen jedoch einen großen Teil 
der erhaltenen Minnesangproduktion abstecken. Hinzu kommt die Ausgabe der Lieder Walthers 
von der Vogelweide und Konrads von Würzburg sowie schließlich ein paar verstreute Ausgaben, 
die jene Lieder aus Knoops Verzeichnis der Tagelieder (vgl. Knoop: Das mittelhochdeutsche Ta- 
gelied, S. 48-52) überliefern, die nicht in den zuvor genannten Anthologien erscheinen. Die un- 
terschiedlichen Normalisierungen der einzelnen Ausgaben wurden für die Analyse manuell an- 
geglichen. 
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Als Verfahren für eine solche in gewissem Sinne »objektivere«, weil automa- 
tisch erstellte Inhaltsanalyse möchte ich auf die in heutigen Ansätzen der digita- 
len Textanalyse beliebte Methode des Topic Modeling zurückgreifen, mit dessen 
Hilfe Textgruppen in einem Korpus aufgefunden werden können, die sich auf- 
grund einer ähnlichen Thematik oder Motivik zusammengruppieren lassen. Dazu 
wird das Korpus in kleinere Abschnitte aufgeteilt und - vereinfacht gesagt - vom 
gemeinsamen Auftreten von Wörtern in einen solchen Abschnitt auf eine diesem 
zugrundeliegende Thematik riickgeschlossen.“”° Jeder Abschnitt erhält dabei in 
der Regel mehr als ein Topic, wobei sich für jedes einzelne Topic die Anteile pro- 
zentual angeben lassen. Zudem ist es auch möglich, genau anzugeben, welche 
Wörter in welchem Ausmaß für das Zustandekommen eines Topics verantwort- 
lich sind. 

Freilich kommt gerade das Verfahren des Topic Modeling nicht ohne inter- 
pretative Vorannahmen aus: Zu wie vielen Topics die Wortverteilungen in einem 
Korpus sinnvollerweise gruppiert werden sollen, kann nämlich nicht vom Com- 
puter eruiert werden, sondern muss von einem menschlichen Forscher, der über 
Grundwissen über das analysierte Korpus verfügt, selbst festgesetzt werden. Zu- 
dem obliegt es diesem auch, die einzelnen Topics, für die vorerst nur die prozen- 
tualen Worthäufigkeiten feststehen, mit sinnvollen Oberbegriffen zu versehen.“ 

Wenn ich im Folgenden das mittelhochdeutsche Minnesangkorpus mit Hilfe 
von Topic Modeling auf eine spezifische Textgruppe »Tagelied« absuche, ent- 
schlage ich mich — anders als von Knoop intendiert — gerade nicht meines 
Vorwissens über diese Untergattung bzw. über die Texte, die gemeinhin als Ta- 
selieder aufgefasst werden, sondern ziehe die Methodik als Heuristik zur Beant- 
wortung folgender Fragen heran: Lassen sich im Gesamtkorpus ein (oder meh- 
rere) Topics finden, die den gängigen Vorstellungen vom Tagelied entsprechen? 
Tritt dieses Topic in den Texten, die gemeinhin bzw. bei Knoop für Tagelieder 
gehalten werden, besonders häufig auf? Fallen manche dieser Lieder aus dem 
Schema bzw. treten unerwartete Kandidaten zur Gruppe hinzu? Welche Wörter 
sind für die Ausprägung des Topics verantwortlich, gibt es auch hier Überra- 
schungen? 


40 Der Begriff der ‚Thematik« ist dabei weit zu fassen, nicht immer zeigen die Wortdistributio- 
nen Themen im herkömmlichen Sinn an, sondern auch Motive, Settings oder schlicht seman- 
tisch verwandte Wortfelder. Vgl. hierzu Christof Schöch: »Topic Modeling Genre: An Exploration 
of French Classical and Enlightenment Drama«, in: Digital Humanities Quaterly11 (2017), 
http: //www.digitalhumanities.org/dhq/vol/11/2/000291/000291.html (27. Oktober 2017). 

41 Ich gehe hier nur auf die Verfahrens-internen Vorentscheidungen ein; auch die Herange- 
hensweise, die Gattung aufgrund von inhaltlichen Komponenten zu bestimmen, stellt bereits 
eine interpretative Vorentscheidung dar. 
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Für die Analyse habe ich den weit verbreiteten Latent Dirichlet Allocation-Al- 
gorithmus (LDA) herangezogen,“ der mit dem Java-Tool MALLET” und dem bei 
Matthew Jockers dokumentierten R-Code,” welchen ich an mein Textmaterial an- 
gepasst habe, prozessiert wurde. Um die Zuordnung einzelner Lieder zur Tage- 
lied-Gruppe vornehmen zu können, habe ich als zugrundeliegende Textab- 
schnitte jeweils die einzelnen Lieder herangezogen, deren Textumfang eine bis 
mehrere Strophen umfasst. Da das Korpus für die Durchführung eines Topic Mo- 
dels relativ klein ist, habe ich 15 Topics angesetzt, eine Zahl, die sich schon bei 
einer ähnlichen Auswertung als sinnvoll erwiesen hat.“ Die Topics zeigen die für 
das Verfahren typische Verteilung von einigen sehr generischen Wortbündeln 
mit hohem Allgemeinheitsgrad, die in allen Texten einen hohen Anteil haben, 
sowie von einigen sehr spezifischen Topics, die nur in wenigen Texten aufzufin- 
den sind.“ Unter den letztgenannten findet sich nun tatsächlich ein Topic, das 
aufgrund seines Wortmaterials (siehe Tabelle 2) sehr deutlich zum Tagelied 
passt. Bereits unter den Wörtern mit dem größten Anteil an seiner Konstitution 
findet sich die figurale Grundkonstellation vrouwe - riter — wahter, dazu die Ge- 
gensatzpaare tac bzw. morgen — nacht, das scheiden, der sanc und der lip, der auf 
die körperliche Vereinigung verweist. Unter den ersten 40 Wörtern ist kein Begriff 
auszumachen, den man nicht im Tagelied erwarten würde. Zwar gibt es einige 
unspezifische Ausdrücke, die auch im »normalen« Minnelied vorkommen könn- 
ten, doch erscheint die Zusammenstellung stimmig und auch recht vollständig. 
Blickt man auf die Absenzen, so ließe sich am ehesten noch das Fehlen des Vo- 
gelgesangs konstatieren, dem aber im mittelhochdeutschen Tagelied wohl auch 
aus traditioneller literaturwissenschaftlicher Sicht nur akzidentelle, aber keine 
konstituierende Bedeutung zukommen dürfte. 

Um festzustellen, ob dieses Topic tatsächlich in jenen Texten verstärkt auf- 
tritt, die gemeinhin als Tagelieder gelten, ziehe ich das von Knoop zusammenge- 
stellte Verzeichnis der Tagelieder und tageliedähnlichen Lieder als Vergleichs- 
größe heran,” das mit der in Tabelle 3 ersichtlichen Rangliste jener Lieder 


42 David M. Blei, Andrew Y. Ng und Michael I. Jordan: »Latent Dirichlet Allocation«, in: Journal 
of Machine Learning Research 3 (2003), S. 993-1022. 

43 AndrewK. McCallum: MALLET: A Machine Learning for Language Toolkit, http://mall 
et.cs.umass.edu (07. Oktober 2017). Zur Prozessierung der Topics wurden 2000 Iterationen vor- 
genommen. 

44 Matthew Jockers: Text Analysis with R for Students of Literature. New York 2014, S. 136-155. 
45 Vgl. hierzu Gabriel Viehhauser: »Digitale Gattungsgeschichten. Minnesang zwischen gene- 
rischer Konstanz und Wende«, erscheint in: ZfdG. Online: http://zfdg.de/. 

46 Zu dieser Verteilung vgl. Schöch: »Topic Modeling Genre«. 

47 Knoop: Das mittelhochdeutsche Tagelied, S. 48-32. 
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konfrontiert wird, die prozentual den höchsten Anteil am Topic aufweisen. 
Knoop ist bei seiner Zusammenstellung in zwei Schritten verfahren, er hat zu- 
nächst eine Liste von möglichen Kandidaten zusammengetragen (die in der letz- 
ten Tabellenspalte mit x gekennzeichneten Texte), von denen einige Texte ganz 
oder in Teilen wieder ausgeschieden wurden, da Knoop sie für zu untypisch für 
die Gattung hielt (in der Tabelle entsprechend als »aussortiert« oder »nur teilweise 
aufgenommen« gekennzeichnet). 

Der Vergleich zeigt nun, dass die ersten 26 Lieder der Topic-Rangliste sämt- 
lich auch in Knoops Verzeichnis erscheinen. Bis zu Platz 47 (und damit einem 
Anteil der Texte am Topic von über 30 Prozent) begegnen nur zwei Ausnahmen, 
die Knoop nicht aufgenommen hat, bis Platz 53 weitere drei Ausnahmen. Ab Rang 
54 (und einem Anteil von 26,21 Prozent) sind Knoop’sche Tagelieder nur mehr 
vereinzelt zu finden. 

Ich bespreche zunächst diese Ausreißer nach unten: Am schlechtesten plat- 
ziert (Platz 167, Anteil 3,89 Prozent) ist das Lied 5 von Günther von dem Forste, 
das Knoop aussortiert hat. Das Lied stellt in jeder Hinsicht einen untypischen 
Text dar, denn es umfasst nicht weniger als 23 Strophen, die Tageliedthematik ist 
in einen umfangreichen Liebesdialog eingebettet und scheint darin aufzugehen. 
Platz 137 (5,61 Prozent), Leuthold von Sevene, würde bei einer qualitativen Ein- 
schätzung zweifellos als Tagelied durchgehen, da es viele typische Elemente ent- 
hält. Das Lied ist allerdings nur fragmentarisch überliefert, es sind nur neun Zei- 
len erhalten, offenbar zu wenig für die Erfassung durch das Topic Model. Lieder 
9 und 14 (Plätze 74 und 88) von Otto von Botenlauben hat Knoop aussortiert, da 
sie »der Gattung Serena« angehören und »nur wenige Elemente des Tagelieds« 
enthalten.** Ebenfalls der Serena-Gattung zugerechnet hat Knoop Lied 51 von Jo- 
hannes Hadlaub, das auf Platz 60 aber immerhin schon einen Anteil von 24,36 
Prozent an dem Topic hat. Das berühmte Lied 4 von Wolfram von Eschenbach 
(MF 5,34ff., Platz 66) ist zweifelsohne ein Spezialfall, da in diesem >»Anti-Tagelied« 
die klassische Situation auf den Kopf gestellt wird: Der Wunsch der Liebenden, 
sich am Morgen nicht trennen zu müssen, ist dann erfüllt, wenn das Liebespaar 
Ehemann und Ehefrau sind. 

Es verbleiben zwei Fälle, die nur schwer zu erklären sind: Lediglich auf Platz 
71 (17,56 Prozent) erscheint Lied 6 von Christan von Hamle. Die Tageliedsituation 


48 Knoop: Das mittelhochdeutsche Tagelied, S.52. Ebenfalls aus dem Tageliedkorpus ausge- 
schlossen werden die Lieder bei Hans-Joachim Behr: »Die Inflation einer Gattung: Das Tagelied 
nach Wolfram«, in: Lied im deutschen Mittelalter. Überlieferung, Typen, Gebrauch. Chiemsee-Col- 
loquium 1991, hg. v. Cyril Edwards, Ernst Hellgard und Norbert H. Ott. Tübingen 1996, S. 195- 
202, hier S. 198. 
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ist hier zwar auf einen Dialog zwischen Wächter und Frau reduziert, das Lied im 
Ganzen aber wohl nicht untypisch. In der Forschung wurde sogar konstatiert, 
dass es »stilistisch und im besonderen Ausdruck sichtlich« Lied 3 von Otto von 
Botenlauben folgt,“ welches seinerseits mit 47,4 Prozent Anteil am Topic weit 
vorne auf Platz 21 der Rangliste liegt. Qualitative Einschätzung und der Befund 
des Topic Modeling treten hier in auffälliger Weise auseinander. 

Lied 12 von Ulrich von Singenberg (Platz 63) hat ebenfalls einen hohen Dia- 
loganteil, ist aber sonst nicht weiter auffällig. Der Anteil des Topics beträgt hier 
auch schon immerhin 21,46 Prozent. 

Dies führt zur umgekehrten Frage, was es mit jenen Liedern auf sich hat, die 
nicht in Knoops Verzeichnis erscheinen, die jedoch trotzdem weit oben in der 
Rangliste des Topics rangieren. Gibt es hier noch Tagelieder, die Knoop entgan- 
gen sind? Mit 43,51 Prozent und Platz 27 ist hier das Lied 1 von Wernher von Ho- 
henberg am besten platziert. Das Werk Wernhers gilt in mancher Hinsicht als 
»ungewöhnlich«‘°°, was sich bei Lied 1 darin äußert, dass es nur aus einer Strophe 
besteht. Das Lied ist kein Tagelied, schildert aber eine Abschiedsankündigung 
(des Sängers, der sich dem Wohlwollen seiner Dame ausgeliefert weiß und ihr 
immerwährenden Dienst versichert), in der einige Schlüsselworte fallen (z. B. ur- 
loup oder scheiden), was zusammen mit der Kürze des Liedes zum hohen Ranking 
seführt haben könnte. 

Ebenfalls Abschiedsthematik gibt es in den zwei Strophen von Lied 2 von Kai- 
ser Heinrich (MF 4,35ff., Platz 27, 35,12 Prozent), in der die Dame das Davonreiten 
des Ritters beklagt und sich an die Zeit des gemeinsamen Beilagers erinnert. Der 
explizite Bezug auf ein durch das Erwachen am Morgen geprägtes Tageliedset- 
ting fehlt, daher lässt sich das Lied nicht als Tagelied im engeren Sinn anspre- 
chen, unter Umständen aber als Variation der Tageliedsituation.°' Hier zeigt sich 
meiner Einschätzung nach das besondere Potential der Topic-Modeling-Methode 
für eine Gattungsbestimmung, die das oben angesprochene prototypensemanti- 
sche Gattungsmodell berücksichtigt: Denn anders als eine binäre Entscheidung 


49 Franz-Josef Worstbrock: »Christan von Hamle«, in: Die deutsche Literatur des Mittelalters. 
Verfasserlexikon. Bd. 1, begründet von Wolfgang Stammler u. a. Berlin, New York 1978, Sp. 1201- 
1202, hier Sp. 1201. 

50 Max Schiendorfer: »Wernher von Hohenberg«, in: Die deutsche Literatur des Mittelalters. 
Verfasserlexikon, Bd.10, begründet von Wolfgang Stammler u.a. Berlin, New York 1999, 
Sp. 936-940, hier Sp. 938. 

51 Dies erwägt etwa Günther Schweikle: »Kaiser Heinrich«, in: Die deutsche Literatur des Mittel- 
alters. Verfasserlexikon, Bd. 3, begründet von Wolfgang Stammler u. a. Berlin, New York 1981, 
Sp. 678-682, hier Sp. 680. 
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für oder gegen die Zugehörigkeit zu einer Gattung festzulegen, was mit der quan- 
titativen Methode gerade nicht möglich erscheint, ließe sich der Prozentanteil 
auch als Grad bestimmen, bis zu dem ein Text als zu einer Gattung (oder gar zu 
unterschiedlichen Gattungen) zugehörig oder, präziser gesagt, zu ihr affin er- 
scheint. Dieser Grad lässt sich natürlich nicht genau angeben - etwa in dem Sinn, 
dass das Lied 2 von Kaiser Heinrich zu 35,12 Prozent als »tageliedhaft« anzusehen 
sei — aber der Prozentwert kann doch als Indikator für ein mehr oder weniger ge- 
gebenes Naheverhältnis zum Kern der Gattung dienen. 

Keines der weiteren Lieder, die nicht bei Knoop erscheinen, aber dennoch 
einen Score von über 20 Prozent Anteil am Tagelied-Topic erreichen, lässt sich 
als Tagelied im engeren Sinn ansprechen - insofern wird die Vollständigkeit von 
Knoops Liste in gewissen Sinn bestätigt —, doch finden sich immer wieder Lieder, 
die eine gewisse Verwandtschaft zur Gattung aufweisen, besonders deutlich etwa 
Lied 1 des Markgrafen Heinrich von Meißen, wo die Tageliedsituation in der zwei- 
ten Strophe in Minnesang-typischer variierender Weise durch ihre Negation zu- 
gleich aufgegriffen, aber auch abgewiesen wird.” Es handelt sich bei dem Lied 
also um kein Tagelied, wohl aber um ein Aufgreifen von Tagelied-Motivik. Die 
quantitative Analyse zeigt (bis zu einem gewissen prozentuellen Grad) ein Konti- 
nuum an, die kategoriale Abgrenzung ergibt sich aus der qualitativen Beurtei- 
lung.” 


4 


Ich ziehe ein kurzes Fazit: Mit Hinblick auf die letztgenannten Beispiele könnte 
das gesteigerte Maß an Präzision, das Knoop vorschwebte, anders als von ihm 


52 Der Sänger kennt zwar die Freuden der heimlichen Liebe vom Hörensagen, weiß auch, dass 
man sich vor der gesellschaftlichen Kontrolle (der huote) in Acht nehmen muss, für ihn spielt 
der warnende Ruf des Wächters aber keine Rolle, da er noch nie das Vergnügen hatte, bei einem 
liebem wibe zu liegen. 

53 Fälle von Typenmischung und Anspielungen auf das Tageliedschema sind in der traditionel- 
len Forschung bereits öfter beschrieben worden, vgl. etwa Wolfgang Mohr: »Spiegelungen des 
Tageliedes«, in: Medievalia literaria (Festschrift für Helmut de Boor), hg. v. Ursula Hennig. Mün- 
chen 1971, S. 287-304; Iona Beloiu-Wehn: Der tegeliet maneger gern sanc. Das deutsche Tagelied 
des 13. Jahrhunderts. Versuch einer gattungsorientierten intertextuellen Analyse. Frankfurt a. M. 
u. a. 1989. Vgl. auch Christoph Cormeau: »Zur Stellung des Tagelieds im Minnesang«, in: Fest- 
schrift Walter Haug und Burghart Wachinger, Bd. 2, hg. v. Johannes Janota, Paul Sappler und 
Frieder Schanze. Tübingen 1992, S. 695-708. 
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intendiert, nicht zu einer klareren Abgrenzung und Definition des Tageliedes fiih- 
ren, sondern ganz im Gegenteil den Blick fiir Strukturahnlichkeiten scharfen, die 
sich an den Randern der Gattung auftun. Wie die Analyse des Minnesangkorpus 
gezeigt hat, eignet sich ein auf LDA basierendes Topic-Modeling-Verfahren dazu, 
eine Gattung, die so stark inhaltlich-motivisch bestimmt ist wie das Tagelied, in 
ihrem bevorzugten Wortgebrauch und Umfang zu erfassen, wobei sich Ausreißer 
aus dem quantitativen Befund als Hinweis auf das Ausfasern der Gattungsgren- 
zen verstehen lassen.” Objektiver zeigt sich das Verfahren aber nur insofern, als 
es in der Lage ist, sozusagen unvoreingenommener das Auftreten von sprachli- 
chen Strukturähnlichkeiten in einer Textgruppe festzustellen. Der Schluss von 
diesen Strukturähnlichkeiten auf einen intertextuellen Gattungszusammenhang 
setzt eine qualitative Einschätzung voraus. Diese Kombination von quantitativen 
und qualitativen Zugängen bringt dann jene Texte genauer in den Blick, bei de- 
nen sich die beiden Befunde reiben. Gerade in der Schärfung des Bewusstseins 
für diesen Übergangsbereich aber scheint mir eines der größten Potentiale der 
Digital Humanities — mit und ohne Computer - zu liegen. 


Anhang 


Tab. 1: Korpus der ausgewerteten Minnelieder. Aus den einzelnen Autorenkorpora wurden jene 
Lieder ausgeschlossen, die in der Forschung als Sangsprüche, nicht als Minnelieder gelten. 


Ausgabe Autor Anzahl Lieder bzw. Töne 
MF Kuerenberger 2 
MF Burggraf von Regensburg 2 
MF Dietmar von Eist 16 
MF Burggraf von Rietenburg 2 
MF Meinloh von Sevelingen 3 
MF Kaiser Heinrich 3 
WL Walther von der Vogelweide 79 
MF Engelhart von Adelnburg 2 
MF Ulrich von Gutenberg 2 


54 Aufgrund der multifaktoriellen Bestimmung von Gattungen diirfte sich dieser Befund jedoch 
nicht beliebig generalisieren lassen: Andere Genres, die weniger motivlich geprägt sind, werden 
sich im Topic Modeling nicht so deutlich abzeichnen. 
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Ausgabe 


MF 
MF 
MF 
MF 
MF 
MF 
MF 
MF 
MF 
MF 
MF 
MF 
MF 
KLD 
KLD 
KLD 
KLD 
KLD 
KLD 
KLD 
KLD 
KLD 
KLD 
KLD 
KLD 
KLD 
KLD 
KLD 
KLD 
KLD 
KLD 
KLD 
KLD 
KLD 
KLD 


Autor Anzahl Lieder bzw. Töne 


Friedrich von Hausen 17 
Heinrich von Veldeke 37 
Rudolf von Fenis 8 
Albrecht von Johansdorf 13 
Heinrich von Rugge 12 
Bernger von Horheim 6 
Hartwig von Rute 4 
Bligger von Steinach 2 
Heinrich von Morungen 35 
Reinmar 68 
Hartmann von Aue 18 
Gottfried von Straßburg 2 
Wolfram von Eschenbach 9 
Hiltbolt von Schwangau 22 
Otto von Botenlauben 14 
Rubin 22 
Der tugendhafte Schreiber 11 
Gottfried von Neifen 51 
Burkhard von Hohenvels 18 
Der Markgraf von Hohenburg 7 
Wachsmuot von Künzingen 7A 
Christan von Hamle 6 
Friedrich der Knecht 5 
Friedrich von Leiningen 1 
Heinrich von Anhalt 2 
Rudolf von Rotenburg 11 
Ulrich von Munegiur 3 
Walther von Mezze 10 
Hesso von Rinach 2 
Ulrich von Singenberg 35 


Markgraf Heinrich v. Meißen 


Hugo von Werbenwag 


6 
5 
Herrand von Wildonie 3 
Der Kol von Niunzen 4 

5 


Reinmar von Brennenberg 
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Ausgabe Autor Anzahl Lieder bzw. Töne 
KLD Der Schenk von Limburg 6 
KLD Ulrich von Liechtenstein 59 
KLD Ulrich von Winterstetten 40 
KLD Bruno von Hornberg 4 
KLD Burggraf von Lienz 2 
KLD Der von Sachsendorf 7 
KLD Wachsmuot von Mühlhausen 5 
KLD Waltram von Gresten 3 
KLD Willehelm von Heinzenburg 5 
KLD Der von Stadegge 3 
KLD Der von Suonegge 3 
KLD Der von Wissenlo 4 
KLD Guenther von dem Forste 6 
KLD Heinrich von der Mure 4 
KLD König Konrad der Junge 2 
KLD Rudolf der Schreiber 3 
KW Konrad von Würzburg 32 
SM Heinrich von Sax 4 
SM Walther von Klingen 8 
KLD Der wilde Alexander 2 
KLD Schulmeister von Esslingen 2 
KLD Brunwart von Augheim 5 
KLD Der Düring 7 
KLD Der Dürner 1 
KLD Der Kanzler 12 
KLD Der Püller 5 
KLD Der von Buchein 3 
KLD Der von Obernburg 7 
KLD Der von Scharpfenberg 2 
KLD Der von Stammheim 1 
KLD Hartmann von Starkenberg 3 
KLD Herzog Heinrich von Breslau 2 
KLD König Wenzel von Boehmen 3 
KLD Konrad von Kirchberg 6 
KLD Markgraf Otto von Branden- 7 


burg 
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Ausgabe 


KLD 
SM 
SM 
SM 
SM 
SM 
SM 
SM 
SM 
SM 
SM 
SM 
SM 
SM 


SM 
SM 


SM 
SM 
SM 
SM 
SM 
SM 
SM 
SM 
CM 
ES 
KLD 
KLD 
MA 
MS 
MS 
MS 


Autor Anzahl Lieder bzw. Töne 


Walther von Breisach 1 
Konrad von Landeck 22 
Der Taler 

Goeli 

Heinrich von Frauenberg 
Heinrich von Stretelingen 
Heinrich von Tettingen 


Konrad von Altstetten 


N WN Ww FF W 


Kraft von Toggenburg 
Steinmar 14 
Winli 

Christian von Lupin 
Goesli von Ehenheim 


Heinrich Hetzbold von Wei- 
Bensee 


Johannes Hadlaub 54 


Albrecht Marschall von Rap- 3 
rechtswil 


on N © 


Der von Gliers 3 
Der von Trostberg 


Heinrich Rost zu Sarnen 9 


m 
w 


Heinrich Teschler 

Jakob von Warte 

Otto zum Turm 

Ulrich von Baumburg 
Wernher von Hohenberg 
Carmina Burana 183 
(Pseudo-)Frauenlob 23 
Namenlos 38a 


Namenlos 40 


N e e ee ee O NAA W 


Der Marner 
Leuthold von Sevene 1 (Fragment) 
Namenlos 427a 1 


Wizlaw von Rügen 1 
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Zugrundeliegende Ausgaben” 


CM: Carmina Burana. Bd. |,2. Hg. v. Alfons Hilka und Otto Schumann. Heidelberg 1941. 

ES: Texte Zur Geschichte des deutschen Tageliedes. Ausgewählt v. Ernst Scheunemann. Erg. u. 
hg. v. Friedrich Ranke. 2. Aufl. Bern 1964. 

KLD: Deutsche Liederdichter des 13. Jahrhunderts. Hg. v. Carl von Kraus. Tübingen 1952. 

KW: Kleinere Dichtungen Konrads von Würzburg. Hg. v. Edward Schröder mit einem Nachwort 
von Ludwig Wolff, 3. Aufl. Berlin 1924/59. 

MA: Der Marner. Lieder und Sangsprüche aus dem 13. Jahrhundert und ihr Weiterleben im 
Meistersang. Hg., eingel., erl. u. übers. v. Eva Willms. Berlin, New York 2008. 

MF: Des Minnesangs Frühling. Unter Benutzung der Ausgaben von Karl Lachmann und Moriz 
Haupt, Friedrich Vogt und Carl von Kraus, bearbeitet von Hugo Moser und Helmut Tervoo- 
ren. 36., neugestaltete und erweiterte Auflage. Stuttgart 1977. 

MS: Minnesinger. Deutsche Liederdichter des zwölften, dreizehnten und vierzehnten Jahrhun- 
derts. Hg. v. Friedrich Heinrich von der Hagen. Leipzig 1838. 

SM: Die Schweizer Minnesänger, nach der Ausgabe von Karl Bartsch neu bearbeitet und hg. v. 
Max Schiendorfer. Tübingen 1990. 

WL: Walther von der Vogelweide: Leich, Lieder, Sangsprüche. 14., völlig neubearbeitete Aufl. 
der Ausgabe von Karl Lachmann mit Beiträgen von Thomas Bein und Horst Brunner, hg. v. 
Christoph Cormeau. Berlin, New York 1996. 


Tab. 2: Prozentualer Anteil der Wörter am Tagelied-Topic 


1 tac 3.63 
2 vrouwe 1,93 
3 riter 1.78 
4 wahter 1.75 
5 scheiden 1.57 
6 nacht 1.54 
7 morgen 1.25 
8 lip 1.13 
9 vriunt 0.71 
10 sanc 0.62 
11 owé 0.59 
12 armen 0.59 
13 geselle 0.56 


55 Die elektronischen Texte der Ausgaben KLD, KW, MF, SM und WL stammen aus der mittel- 
hochdeutschen Begriffsdatenbank (http://mhdbdb.sbg.ac.at/). 
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tac 


hérre 
wip 
liebe 
liep 
tages 
schiet 
arme 
gelegen 
tougen 
pflegen 
warnen 
urloup 
wolken 


erschrac 


wecke 
vrouwen 
entslafen 
weinen 
rich 
wache 
tage 


angest 


3.63 


0.56 
0.53 
0.5 

0.47 
0.47 
0.44 
0.41 
0.38 
0.38 
0.38 
0.38 
0.35 
0.35 
0.35 
0.32 
0.32 
0.32 
0.32 
0.32 
0.32 
0.29 
0.29 
0.29 
0.29 
0.29 
0.29 
0.29 
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Tab. 3: Ranking der Texte nach dem Anteil des Tageliedtopics bis Platz 167 (Guenther von dem 
Forste Lied 5, das letzte Lied aus Knoops Verzeichnis) 


Rang Lied Prozent In Knoops Verzeichnis 
1 Ulrich von Winterstetten 28 67,25 x 
2 Der von Wissenlo 04 65,58 x 
3 Ulrich von Winterstetten 07 62,46 X 
4 Otto von Botenlauben 13 59,44 X 
5 Der von Wissenlo 02 58,56 x 
6 Johannes Hadlaub 50 57,22 x 
7 Wolfram von Eschenbach 02 56,32 x 
8 Der Marner 02 55,96 x 
9 Namenlos 40-43 55,23 x 
10 Der Marner 03 54,71 x 
11 Der Markgraf von Hohenburg 05 54,36 x 
12 Ulrich von Winterstetten 27 53,99 x 
13 Burggraf von Lienz 01 53,65 x (nur teilweise aufgenommen) 
14 Wizlaw von Rügen 81 52,73 x 
15 Heinrich von Frauenberg 01 52,18 x 
16 Namenlos 427a 50,83 x 
17 Johannes Hadlaub 14 49,63 X 
18 Heinrich von Morungen 30 49,6 x (aussortiert) 
19 Jakob von Warte 06 48,54 x 
20 Frauenlob 23 48,12 x 
21 Otto von Botenlauben 03 47,4 x 
22 Walther von Breisach 02 47,1 x 
23 Ulrich von Singenberg 07 46,56 x 
24 Steinmar 08 45,91 x (aussortiert) 
25 Bruno von Hornberg 03 44,72 x 
26 Ulrich von Winterstetten 13 43,57 x 
27 Wernher von Hohenberg 01 43,51 
28 Koenig Wenzel von Boehmen 03 43,44 x 
29 Der von Wissenlo 01 42,61 x 
30 Wolfram von Eschenbach 01 42,17 x 
31 Der von Wissenlo 03 41,25 x 
32 Johannes Hadlaub 34 40,37 x 
x 


33 Ulrich von Liechtenstein 40 40,06 
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Rang 


34 
35 
36 
37 
38 
39 
40 
41 
42 
43 
44 
45 
46 
47 
48 
49 
50 
51 
52 
53 
54 
55 
56 
57 
58 
59 
60 
61 
62 
63 
64 
65 
66 
67 
68 


Lied 

Heinrich Teschler 07 

Ulrich von Winterstetten 29 
Wolfram von Eschenbach 07 
Walther 59 

Namenlos 38a 

Konrad von Würzburg 15 
Kaiser Heinrich 02 

Carmina Burana 183 
Johannes Hadlaub 33 

Winli 08 

Wolfram von Eschenbach 05 
Burggraf von Lienz 02 
Dietmar von Eist 13 

Rubin 20 

Gottfried von Neifen 41 
Walther 26 

Heinrich von Veldeke 05 
Ulrich von Liechtenstein 36 
Konrad von Würzburg 14 
Steinmar 05 

Markgraf Heinrich von Meißen 01 
Heinrich von Morungen 23 
Walther 73 

Kuerenberger 02 

Rudolf von Rotenburg 12 
Reinmar 61 

Johannes Hadlaub 51 
Dietmar von Eist 14 
Walther 85 

Ulrich von Singenberg 12 
Ulrich von Liechtenstein 02 
Wachsmuot von Künzingen 05 
Wolfram von Eschenbach 04 
Heinrich Rost zu Sarnen 03 


Markgraf Otto von Brandenburg 01 


Prozent 


39,84 
39,29 
38,92 
38,47 
37,76 
36,63 
35,12 
34,93 
34,75 
33,98 
32,34 
31,81 
30,98 
30,55 
28,86 
27,01 
26,95 
26,76 
26,74 
26,53 
26,21 
25,96 
25,72 
25,28 
24,91 
24,75 
24,36 
23,7 

22,89 
21,46 
21,26 
20,64 
20,45 
20,33 
19,96 


In Knoops Verzeichnis 


x 


x 


x x xx XxX XxX X 


x (nur teilweise aufgenommen) 
x 


x (aussortiert) 


x (aussortiert) 


x (aussortiert) 
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Rang Lied Prozent In Knoops Verzeichnis 
69 Walther 50 19,37 

70 Wernher von Hohenberg 03 18,39 

71 Christan von Hamle 06 17,56 x 
72 Goeli 04 16,94 

73 Wolfram von Eschenbach 03 16,28 

74 Otto von Botenlauben 09 16,18 x (aussortiert) 
75 Walther 23 15,72 

76 Heinrich von Veldeke 17 15,44 

77 Walther 51 15,39 

78 Heinrich von Frauenberg 04 14,74 

79 Heinrich von Morungen 18 14,72 

80 Johannes Hadlaub 09 13,07 

81 Friedrich von Hausen 07 12,87 

82 Dietmar von Eist 10 12,65 

83 Gottfried von Neifen 10 12,34 

84 Konrad von Würzburg 30 12,2 

85 Walther 29 12,02 

86 Reinmar 0602 11,93 

87 Ulrich von Liechtenstein 35 11,93 

88 Otto von Botenlauben 14 11,82 x (aussortiert) 
89 Ulrich von Singenberg 21 11,38 

90 Der von Sachsendorf 04 11,34 

91 Ulrich von Winterstetten 04 11,31 

92 Heinrich Teschler 09 10,97 

93 Der von Stadegge 02 10,62 

94 Konrad von Würzburg 26 10,5 

95 Kaiser Heinrich 03 10,35 

96 Reinmar 11 10,34 

97 Dietmar von Eist 11 10,27 

98 Heinrich von Morungen 10 10,23 

99 Markgraf Otto von Brandenburg 06 10,13 

100 Der tugendhafte Schreiber 06 10,07 

101 Reinmar 09 10,04 

102 Ulrich von Liechtenstein 41 9,82 


103 Rubin 12 9,72 
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Rang 


104 
105 
106 
107 
108 
109 
110 
111 
112 
113 
114 
115 
116 
117 
118 
119 
120 
121 
122 
123 
124 
125 
126 
127 
128 
129 
130 
131 
132 
133 
134 
135 
136 
137 
138 


Lied 

Heinrich von Morungen 08 
Reinmar von Brennenberg 01 
Burggraf von Regensburg 01 
Meinloh von Sevelingen 01 
Der Duering 04 

Walther 90 

Johannes Hadlaub 23 
Reinmar 32 

Reinmar 20 

Heinrich von Veldeke 37 
Konrad von Altstetten 01 
Gottfried von Neifen 39 
Reinmar 50 

Walther 83 

Burkhard von Hohenvels 15 
Ulrich von Winterstetten 36 
Heinrich von Veldeke 21 
Heinrich von Veldeke 35 
Reinmar 38 

Rudolf von Rotenburg 14 
Walther 64 

Heinrich von Morungen 29 
Otto von Botenlauben 02 
Heinrich von Morungen 04 
Burggraf von Regensburg 02 
Reinmar 16 

Konrad von Kirchberg 02 
Ulrich von Liechtenstein 01 
Burkhard von Hohenvels 03 
Ulrich von Liechtenstein 48 
Gottfried von Neifen 15 
Otto von Botenlauben 06 


Otto von Botenlauben 07 


Leuthold von Sevene 04 (Fragment) 


Christian von Lupin 05 


Prozent In Knoops Verzeichnis 


9,62 
9,51 
9,5 
9,41 
9,29 
9,26 
9,24 
8,99 
8,49 
8,27 
8,01 
7,82 
7,66 
7,45 
6,73 
6,65 
6,62 
6,62 
6,41 
6,4 
6,32 
6,25 
6,25 
6,15 
6,06 
6,06 
6,06 
6 
5,97 
5,8 
5,69 
5,61 
5,61 
5,61 x 
5,57 
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Rang Lied Prozent In Knoops Verzeichnis 
139 Goeli 01 5,56 
140 Heinrich von Morungen 22 5,5 
141 Heinrich von Veldeke 24 5,34 
142 Heinrich von Veldeke 32 5,34 
143 Hartmann von Aue 06 5,34 
144 Christan von Hamle 03 5,28 
145 Willehelm von Heinzenburg 04 5,17 
146 Dietmar von Eist 09 5,09 
147 Hiltbolt von Schwangau 01 5,09 
148 Ulrich von Liechtenstein 42 5,01 
149 Rubin 19 4,86 
150 Hartwig von Rute 02 4,66 
151 Wachsmuot von Mühlhausen 01 4,6 
152 Konrad von Würzburg 23 4,52 
153 Burkhard von Hohenvels 01 4,51 
154 Dietmar von Eist 01 4,5 
155 Johannes Hadlaub 21 4,39 
156 Der Dürner 01 4,33 
157 Hartmann von Aue 15 4,32 
158 Der Schenk von Limburg 02 4,32 
159 Heinrich von Morungen 13 4,21 
160 Otto zum Turm 04 4,21 
161 Rubin 22 4,2 
162 Reinmar 31 3,99 
163 Der wilde Alexander 06 3,99 
164 Der von Obernburg 03 3,99 
165 Ulrich von Singenberg 34 3,98 
166 Christan von Hamle 04 3,89 


167 Guenther von dem Forste 05 3,89 x (aussortiert) 
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Teil 2: Reflexionen 


Toni Bernhart 
Quantitative Literaturwissenschaft: Ein Fach 
mit langer Tradition?’ 


Abstract: Quantitative Criticism refers to an approach in literary studies that em- 
ploys methods of counting and measuring, as well as mathematical, statistical, 
empirical and computer-based methods in the analysis and interpretation of lit- 
erary texts. So far, there has been no comprehensive systematic and diachronic 
research that investigates systematically the historical development of quantita- 
tive methods in German literary studies. This is surprising, given that quantita- 
tive methods have been employed in literary studies since the beginning of the 
19" century and are of central interest to current debates in the context of the 
digital humanities. Three periods can be identified, during which quantitative 
methods flourished: the years around 1900, the period reaching from about 1950 
to about 1980, and the recent development since the year 2000. 


Quantitative Literaturwissenschaft gibt es langer, als es Philologien als akademi- 
sche Fächer gibt. Die Verwendung quantitativer Ansätze im Umgang mit Sprache 
und Literatur lässt sich mindestens bis ins frühe 19. Jahrhundert zurückverfol- 
gen. Doch gibt es bis heute kein Lehrbuch, in dem man sich umfassend, systema- 
tisch und historisch darüber informieren könnte. Ganz anders verhält es sich in 
der Nachbardisziplin Linguistik: Quantitative Linguistik ist seit Jahrzehnten ein 
etabliertes Teilgebiet mit eigenen Standards und Lehrbüchern.? 


1 Der Beitrag entstand im Rahmen des Forschungsprojekts »Quantitative Literaturwissen- 
schaft / Quantitative Criticism«, gefördert durch die Deutsche Forschungsgemeinschaft (DFG), 
http://gepris.dfg.de/gepris/projekt/259167649. 

2 Vgl. etwa Rüdiger Grotjahn: Linguistische und statistische Methoden in Metrik und Textwissen- 
schaft. Bochum 1979 (Quantitative linguistics 2); Gabriel Altmann: Statistik für Linguisten. 2., 
verb. Aufl. Trier 1995 [1980] (Quantitative linguistics 55); Reinhard Köhler: Bibliography of Quan- 
titative Linguistics. Bibliographie zur quantitativen Linguistik. With the assistance of Christiane 
Hoffmann. Amsterdam 1995 (Library and Information Sources in Linguistics 25); Reinhard Köh- 
ler, Gabriel Altmann und Rajmund G. Piotrowski (Hg.): Quantitative Linguistik. Quantitative Lin- 
guistics. Ein internationales Handbuch. An International Handbook. Berlin, New York 2005 (Hand- 
bücher zur Sprach- und Kommunikationswissenschaft 27); Peter Grzybek und Reinhard Köhler 
(Hg.): Exact Methods in the Study of Language and Text. Dedicated to Gabriel Altmann on the Oc- 
casion of his 75th Birthday. Berlin, New York 2007 (Quantitative linguistics 62); Manlio Cortelazzo 
und Arjuna Tuzzi: Metodi statistici applicati all’italiano. Bologna 2008; Emmerich Kelih: Ge- 
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Im Zuge der Digital Humanities erfahren quantitative Ansatze jedoch eine 
Renaissance: In einleitenden Buchkapiteln und Einfiihrungen wird heute ganz 
selbstverstandlich darauf hingewiesen, dass statistische, mathematische und 
quantifizierende Ansätze integrale Bestandteile des Methodenrepertoires seien, 
und zwar in Verbindung mit qualitativen und hermeneutischen Analyse- und In- 
terpretationsverfahren.? Die Betonung dieser Koppelung von Quantität und Qua- 
lität wie auch das Bewusstsein dafür sind vergleichsweise neu und tragen we- 
sentlich dazu bei, dass die Digital Humanities sehr rasch sehr breite Akzeptanz 
erfahren. Der empirischen Ästhetik um 1900 oder der kybernetischen Literatur- 
wissenschaft der 1950er und 1960er Jahre etwa war eine solche Akzeptanz noch 
nicht beschieden. 


1 Was ist Quantitative Literaturwissenschaft? 


Unter Quantitativer Literaturwissenschaft lassen sich quantitative Ansätze im 
weitesten Sinn, also zählende, messende, mathematische, statistische, geome- 
trische, empirische, computergestützte und informatische Verfahren subsum- 
mieren, sofern sie für die Analyse und Interpretation von Literatur Verwendung 
finden. Diese Definition ist mit Absicht offen und unscharf gehalten, um drei 
wichtigen Spezifika gerecht zu werden. Die Definition besagt erstens nicht, was 
genau bei der Anwendung der genannten Verfahren geschieht, wie dabei vorge- 
gangen wird und mit welcher Absicht dies erfolgt. Denn einerseits ist dies divers 
und mitunter voraussetzungsreich, andererseits — vor allem in diachroner Per- 
spektive — noch weitgehend unerforscht. Theorie- und methodengeschichtliche 
Durchdringungen stecken erst in den Anfängen, historische Dimensionen sind 


schichte der Anwendung quantitativer Verfahren in der russischen Sprach- und Literaturwissen- 
schaft. Hamburg 2008 (Studien zur Slawistik 19); Karl-Heinz Best: Studien zur Geschichte der 
quantitativen Linguistik. Bd. 1. Lüdenscheid 2015 (Studies in Quantitative Linguistics 19); Jacque- 
line Léon und Sylvain Loiseau: History of Quantitative Linguistics in France. Lüdenscheid 2016 
(Studies in Quantitative Linguistics 24). 

3 Vgl. etwa Matthew G. Kirschenbaum: »What Is Digital Humanities and What’s It Doing in Eng- 
lish Departments?«, in: ADE Bulletin 150 (2010), S. 1-7, hier S. 2; Michael Piotrowski: Natural 
Language Processing for Historical Texts. [San Rafael, Calif.] 2012 (Synthesis Lectures on Human 
Language Technologies 17), S. 6; Manfred Thaller: »Digital Humanities als Wissenschaft«, in: 
Digital Humanities. Eine Einfiihrung. Mit Abbildungen und Grafiken, hg. v. Fotis Jannidis, 
Hubertus Kohle und Malte Rehbein. Stuttgart 2017, S. 13-18, hier S. 15. 
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noch kaum ausgelotet, systematische Rekonstruktionen erst in Ansätzen vorhan- 
den.‘ Bekannt sind bislang lediglich die Spitzen des Eisbergs, die in die Panora- 
men der Digital Humanities Eingang fanden. 

Ein weiteres Spezifikum einer Quantitativen Literaturwissenschaft sind de- 
ren methodische Breite und Vielfalt; in chronologischer Reihenfolge sind deshalb 
computergestützte und informatische Verfahren als letzte genannt. Galileo Gali- 
lei vermisst Dantes Hölle, indem er rechnet und zählt. Wenn der Physiker Thomas 
Corwin Mendenhall am Ende des 19. Jahrhunderts stilistische Ähnlichkeiten zwi- 
schen Marlowe und Shakespeare untersucht, macht er dies mithilfe des statisti- 
schen Wissens seiner Zeit.’ Quantitative Literaturwissenschaft ist nicht dasselbe 
wie Digital Humanities. Die beiden Methoden- und Verständniskomplexe stehen 
auf mehreren Ebenen zueinander im Verhältnis, unterscheiden sich aber doch 
auch deutlich. Denn zählen und rechnen kann man auch ohne Computer — und 
man hat dies lange Zeit und mit stetigem Erfolg gemacht. Umgekehrt nutzen die 
Digital Humanities in einzelnen Bereichen (etwa in der Stilometrie mittels der Dif- 
ferenzmessung nach Burrows) statistische Verfahren intensiv, in anderen Berei- 
chen wie Archiv und Edition dagegen kaum oder nicht vordergründig. Digitales 


4 Als aufschlussreiche Beiträge aus den letzten Jahren sind zu nennen Peter Grzybek und Em- 
merich Kelih: »Zur Vorgeschichte quantitativer Ansätze in der russischen Sprach- und Literatur- 
wissenschaft«, in: Quantitative Linguistik. Quantitative Linguistics. Ein internationales Handbuch. 
An International Handbook, hg. v. Reinhard Köhler, Gabriel Altmann und Rajmund G. Pi- 
otrowski. Berlin, New York 2005 (Handbücher zur Sprach- und Kommunikationswissenschaft 
27), S. 23-64; Winfried Menninghaus: »Mathematik und Dichtung. Bemerkungen aus Anlaß von 
Jochen Brünings Circular«, in: Debatte 4 (2006), S. 117-120, edoc.bbaw.de/volltexte/2007/496/ 
pdf/27nHyrNocnpLo_496.pdf (26. März 2017); David L. Hoover: »Quantitative Analysis and Lit- 
erary Studies«, in: A Companion to Digital Literary Studies, hg. v. Ray Siemens und Susan 
Schreibman. Malden, MA u.a. 2007 (Blackwell companions to literature and culture 50), S. 517- 
533; Kelih: Geschichte der Anwendung quantitativer Verfahren in der russischen Sprach- und Lite- 
raturwissenschaft; Lorraine Daston und Elizabeth Lunbeck (Hg.): Histories of Scientific Observa- 
tion. Chicago, London 2011; Andrea Albrecht, Gesa von Essen und Werner Frick (Hg.): Zahlen, 
Zeichen und Figuren. Mathematische Inspirationen in Kunst und Literatur. Berlin, Boston 2011 
(Linguae & litterae 11); Fotis Jannidis und Gerhard Lauer: »Burrows Delta and its Use in German 
Literary History«, in: Distant Readings. Topologies of German Culture in the Long Nineteenth Cen- 
tury, hg. v. Matt Erlin und Lynne Tatlock. Suffolk 2014, S. 29-54; Empirical Methods in Literary 
Studies. Special Issue. Journal of Literary Theory 9.1 (2015). Vgl. auch den Workshop »Wissen- 
schaftsgeschichte und Digital Humanities in Forschung und Lehre«, Universität Göttingen, 7.- 
9. April 2016, http://www.blumenbach-online.de/fileadmin/wikiuser/Daten_Digitalisierung/ 
Tagung_FVWG-und-GCDH/Tagung_FVWG_GCDG_Programm_download.pdf (28.3.2017). 

5 T[homas] C[orwin] Mendenhall: »The Characteristic Curves of Composition«, in: Science 9.214 
(1887), S. 237-249; Thomas Corwin Mendenhall: »A mechanical solution of a literary problem«, 
in: Popular Science Monthly 60 (1901), S. 97-105. 
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Edieren hat so wenig (oder so viel) mit Quantitativer Literaturwissenschaft zu tun 
wie die Hexameter-Forschungen des Latinisten Klaus Thraede mit Digital Huma- 
nities.° 

Wenn - als ein drittes Spezifikum - in der Arbeitsdefinition von »Analyse und 
Interpretation von Literatur: die Rede ist, klingt dies zugegebenermaßen etwas 
sperrig. Von »literaturwissenschaftlicher Analyse und Interpretation: zu spre- 
chen klänge adäquater, würde allerdings der Sache nicht gerecht. Denn bis weit 
herauf ins 20. Jahrhundert waren es selten Philologen, die sich quantitativ mit 
Literatur beschäftigten. Meist waren es Vertreter anderer Disziplinen wie der Phy- 
sik, Mathematik, Medizin oder Psychologie, die sich virulenter philologischer 
Probleme annahmen oder sich - oft in fortgeschrittener akademischer Karriere — 
aus Spaß an der Freude mit Poesie beschäftigten. Quantitative Literaturwissen- 
schaft fand also lange Zeit außerhalb der Philologien statt. Dies kann als eine Er- 
klärung dafür gelten, warum quantifizierende Verfahren in wichtigen Strängen 
der Philologien lange Zeit ein Randphänomen blieben. Ansätze, Vorstöße, Irrun- 
gen und Erfolge wurden äußert selten rezipiert, eingeschlagene Pfade zu späte- 
ren Zeitpunkten so gut wie nie mehr wieder begangen. Die Geschichte der Quan- 
titativen Literaturwissenschaft (und also der Vorläufe der Digital Humanities) ist 
inselhaft und gekennzeichnet von Diskontinuitäten. Quantitative Literaturwis- 
senschaft konnte folglich keine Tradition entfalten, weil Kontinuitäten und An- 
schlüsse nicht gepflegt und nicht gesehen wurden. 


2 Frühe Beispiele 


Ein sehr früher Beleg für die Verwendung mathematischer Verfahren zur Lösung 
literatur- und sprachwissenschaftlicher Probleme stammt nach derzeitigem 
Kenntnisstand aus der ersten Hälfte des 19. Jahrhunderts. Sir Thomas Young 
(1773-1829), gebürtiger Engländer, in Göttingen promovierter Mediziner und spä- 
ter Physikprofessor in London, beschäftigte sich in seinem Beitrag »Remarks on 
the probabilities of error in physical observations« (1819) mit der physikalischen 
Dichte der Erde sowie, wenn auch relativ kurz, mit den Fragen, wie sich die in der 
Zeit lebhaft diskutierten Sprachenverwandtschaften wahrscheinlichkeitsmathe- 
matisch bestimmen und ägyptische Hieroglyphen entschlüsseln lassen könnten.’ 


6 Klaus Thraede: Der Hexameter in Rom. Verstheorie und Statistik. München 1978 (Zetemata 71). 
7 Thomas Young: »Remarks on the probabilities of error in physical observations, and on the 
density of the earth, considered, especially with regard to the reduction of experiments on the 
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(Die tatsächliche Entschlüsselung gelang bekanntlich drei Jahre später Jean- 
Francois Champollion.) 

Auch wenn es legitim erscheint, den Beginn einer quantifizierenden Litera- 
turwissenschaft in der ersten Hälfte des 19. Jahrhunderts zu verorten, stellt sich 
doch die sehr berechtigte Frage, ob nicht Vorläufer auch in den Jahrhunderten 
davor zu finden sind und ob und inwiefern die Quantitative Literaturwissen- 
schaft nicht Teil einer szientistischen literarischen Imaginationsgeschichte ist 
(die immer auch intellektuelle Realgeschichte ist). Demgemäß ließe sich bei der 
Suche nach quantitativen Textorganisationsprinzipien darauf rekurrieren, wie 
nach Aristoteles die Dauer der erzählten Zeit in dramatischen Gattungen als ein 
quantitatives Kriterium für die Gattungsbestimmung gelten kann, ob es sich 
nämlich um eine Tragödie oder Komödie handelt; als ein frühes Beispiel quanti- 
fizierender Lektüre wären Galileos Due lezioni all’Accademia Fiorentina circa la 
figura, sito e grandezza dell’Inferno di Dante (1588) zu berücksichtigen;? auch 
»Verwissenschaftlichungsschübe: in der schöpferischen Produktion v.a. seit der 
Aufklärung, darunter die grundlegenden Schriften von Athanasius Kircher oder 
Gottfried Wilhelm Leibniz, wären wichtige Kapitel dieser Imaginationsgeschichte 
- ebenso wie die Überstrukturierung literarischer oder religiöser Texte durch se- 
mantisierte Zahlenwerte, ludistische Poetiken des Barocks oder esoterische Po- 
etiken der Frühromantik bis hin zu Wilhelm Diltheys sempirischem« Entwurf Die 
Einbildungskraft des Dichters. Bausteine für eine Poetik (1887). 

Ein frühes Beispiel für die Quantifizierung von Wertungsfragen in Hinblick 
auf Kanonbildung sind die Ranglisten, die der Künstler und Kunstkritiker Roger 
de Piles 1708 vorschlug und die ab der Mitte des 18. Jahrhunderts nicht nur in der 
bildenden Kunst, sondern auch in Literatur, Musik und Theater Anwendung fan- 
den, für die Literatur erstmals durch den Dichter und Arzt Mark Akenside (unter 


pendulum«, in: Philosophical Transactions of the Royal Society of London 109 (1819), S. 70-95, 
hier S. 79-82. 

8 Galileo Galilei: »Erste Lektion vor der Florentinischen Akademie über die Gestalt, Lage und 
Größe von Dantes »Hölle««. Aus dem Italienischen von Monika Köster und Christian Wagner, in: 
ders.: Schriften, Briefe, Dokumente. Bd. 1: Schriften, hg. v. Anna Mudry. Berlin 1987, S. 50-67. 

9 Vgl. zu diesem Komplex Thomas Leinkauf: Mundus combinatus. Studien zur Struktur der baro- 
cken Universalwissenschaft am Beispiel Athanasius Kirchers SJ (1602-1680). Berlin 1993; Thomas 
Leinkauf: Einheit, Natur, Geist. Beiträge zu metaphysischen Grundproblemen im Denken von Gott- 
fried Wilhelm Leibniz. Berlin 2012 (Frankfurter kulturwissenschaftliche Beiträge 13); Albrecht, 
Essen, Frick: Zahlen, Zeichen und Figuren, Menninghaus: »Mathematik und Dichtung«, S. 118; 
Sandra Richter: A history of Poetics. German Scholarly Aesthetics and Poetics in International Con- 
text, 1770-1960. With Bibliographies by Anja Zenk, Jasmin Azazmah, Eva Jost, Sandra Richter. 
Berlin, New York 2010, S. 151-159. 
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dem Pseudonym Musiphron), kurz darauf auch von Christoph Martin Wieland.” 
Qualitäten wie >Kritische Anordnung, »Pathetische Anordnung:, »Kolorit«, »Ver- 
sifikation<, »Sitten< und »Genialität« werden für einzelne Autoren in Zahlenwerten 
ausgedriickt, woraus ein Mittelwert errechnet wird, der eine Rangliste ergibt. Ho- 
mer und Shakespeare rangieren ganz weit oben, Goethe weiter unten." Auch das 
weite Feld der Glossen seit der Spätantike und einzelne Empirisierungsschübe im 
Laufe der Geistesgeschichte wie zuletzt die Empirische Ästhetik seit dem späten 
19. Jahrhundert wären daraufhin zu befragen, ob und inwiefern Quantifizierung 
darin eine programmatische Rolle spielt.” Doch dies alles kann und muss nicht 
integraler Gegenstand einer Quantitativen Literaturwissenschaft sein, wenn- 
gleich es eine unübersehbare Grundlage für das Verständnis des Quantitativen 
und den »Sprung« zwischen Quantität und Qualität in Literatur- und Geisteswis- 
senschaften bildet. 


3 Kulminationsphasen 


Aus dem historischen Fluidum der letzten zwei Jahrhunderte treten drei Phasen 
hervor, in denen quantitative Ansätze zur Analyse und Interpretation von Litera- 
tur und Sprache kulminieren. Eine erste Phase bilden die Dekaden um 1900, in 
der sich vorwiegend Nicht-Philologen quantifizierend mit Literatur beschäftigen. 
In den Jahrzehnten zwischen etwa 1950 und 1980 lässt sich eine zweite Phase 
identifizieren, die durch ausgeprägte Interdisziplinarität gekennzeichnet ist und 
in der sich maschinelle Rechnertechnik und das junge, sich erst formierende 
Fach der Informatik an den Debatten beteiligen. Als eine dritte Phase tritt die Zeit 
ab etwa 2000 hervor, in der quantitative Ansätze in den Geisteswissenschaften 
von den Digital Humanities absorbiert werden und eine deutliche Konvergenz 
der Konzepte »Quantität« und »Qualität« zu verzeichnen ist. 

Beispiele für quantitative Ansätze in der ersten Phase der Dekaden um 1900 
sind die zahlreichen Häufigkeitswörterbücher (etwa William Gamble 1861 für das 


10 Roger de Piles: Cours de Peinture par Principes. Paris 1708, bes. S. 489-493. 

11 Ausführlich dazu Carlos Spoerhase: »Das Maß der Potsdamer Garde. Die ästhetische Vorge- 
schichte des Rankings in der europäischen Literatur- und Kunstkritik des 18. Jahrhunderts«, in: 
Jahrbuch der deutschen Schillergesellschaft 58 (2014), S. 90-126. 

12 Jutta Müller-Tamm, Henning Schmidgen und Tobias Wilke (Hg.): Gefühl und Genauigkeit. 
Empirische Ästhetik um 1900. München, Paderborn 2014. 
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Chinesische, Friedrich Wilhelm Kaeding 1898 für das Deutsche), aber auch Ar- 
beiten wie jene von Moritz Wilhelm Drobisch,“ Karl Groos” und Alfredo Nice- 
foro,'° die deutlich unter dem Eindruck des Positivismus stehen. Diese erste Kul- 
minationsphase ist dadurch gekennzeichnet, dass Literatur und Sprache fast 
durchweg von nicht-philologischen Disziplinen statistisch analysiert werden, 
und zwar für Zwecke, die keine genuin literaturwissenschaftlichen sind. So 
möchte etwa der presbyterianische Missionar Gamble mit seiner quantitativen 
Analyse chinesischer Bibelübersetzungen dem Setzer chinesischer Schriftzei- 
chen eine Orientierung darüber bieten, welche Schriftzeichen in welcher Menge 
für den Buchdruck vorrätig zu halten sind. Kaeding, seines Zeichens Geheimer 
Rechnungsrat bei der Deutschen Reichsbank, strebte die Optimierung und Ver- 
einheitlichung stenographischer Schreibsysteme für das Deutsche auf der Grund- 
lage seines Häufigkeitswörterbuchs der deutschen Sprache (1898) an. Drobisch, 
der die Formen des lateinischen Hexameter untersuchte, war Mathematiker und 
Philosoph; Groos war Psychologe und erforschte literarische Werke, in der Ab- 
sicht, die »psychologische Eigenart des Künstlers« zu diagnostizieren.” Niceforo, 
um die Mitte des 20. Jahrhunderts ein namhafter Kriminologe, war als junger Wis- 
senschaftler auf der Suche nach rezeptionsästhetischen Wahrnehmungsprofilen 


13 William Gamble: Two Lists of Selected Characters Containing Allin The Bible and Twenty Seven 
Other Books. With Introductory Remarks. Shanghai 1861; F[riedrich] W[ilhelm] Kaeding: Häufig- 
keitswörterbuch der deutschen Sprache. Festgestellt durch einen Arbeitsausschuß der deutschen 
Stenographiesysteme. Steglitz bei Berlin 1898. 

14 Moritz Wilhelm Drobisch: »Ein statistischer Versuch über die Formen des lateinischen Hexa- 
meters«, in: Berichte über die Verhandlungen der Königlich-sächsischen Gesellschaft der Wissen- 
schaften zu Leipzig, Philologisch-historische Klasse 18 (1866), S.75-139; Moritz Wilhelm Drobisch: 
»Weitere Untersuchungen über die Formen des Hexameter des Vergil, Horaz und Homer«, in: 
Berichte über die Verhandlungen der Königlich-sächsischen Gesellschaft der Wissenschaften zu 
Leipzig, Philologisch-historische Klasse 20 (1868), S. 16-65; Moritz Wilhelm Drobisch: »Ueber die 
Unterschiede in der Grundanlage des lateinischen und griechischen Hexameters«, in: Berichte 
über die Verhandlungen der Königlich-sächsischen Gesellschaft der Wissenschaften zu Leipzig, 
Philologisch-historische Klasse 25 (1873), S. 7-32. 

15 Karl Groos und Marie Groos: »Die optischen Qualitäten in der Lyrik Schillers«, in: Zeitschrift 
für Ästhetik und allgemeine Kunstwissenschaft 4 (1909), S. 559-571; Karl Groos und Marie Groos: 
»Die akustischen Phänomene in der Lyrik Schillers«, in: Zeitschrift für Ästhetik und allgemeine 
Kunstwissenschaft 5 (1910), S. 545-570; Karl Groos, Ilse Netto und Marie Groos: »Die Sinnesdaten 
im »Ring des Nibelungen«. Optisches und akustisches Material«, in: Archiv für die gesamte Psy- 
chologie 22 (1912), S. 401-422. 

16 Alfredo Niceforo: La misura della vita. Applicazioni del metodo statistico alle scienze naturali, 
alle scienze sociali, e all’arte. Con 112 tabelle e 29 diagrammi. Milano u.a. 1919 [1912] (Biblioteca 
di scienze moderne 73). 

17 Groos, Netto, Groos: »Die Sinnesdaten im »Ring des Nibelungen«, S. 411. 
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von Betrachterinnen und Betrachtern bildender Kunst. Als mathematische Ver- 
fahren kommen in dieser ersten Kulminationsphase um 1900 vergleichsweise 
einfache Rechenoperationen wie Addition, Bestimmung des arithmetischen Mit- 
tels, Prozent- und weitere Verhältnisrechnungen zur Anwendung. 

Eine zweite Kulminationsphase zeichnet sich zwischen etwa 1950 und 1980 
ab. Sie ist erstmals stärker auf literaturwissenschaftliche Probleme konzentriert: 
quantitative Verfahren erreichen in dieser Zeit die bislang größte Sichtbarkeit 
und Prominenz. Diese Phase geht mit theoretischen, philosophischen und ideo- 
logischen Strömungen einher, die sich unter den Begriffen Strukturalismus, Ma- 
terialismus und marxistischer Literaturtheorie verschlagworten lassen. Wichtige 
mathematische Impulse kommen aus der Informationstheorie von Claude E. 
Shannon und Warren Weaver und insbesondere aus den linguistischen Arbeiten 
von Pierre Guiraud, Gustav Herdan und Charles Muller.'® Vorangetrieben werden 
die Bestrebungen in dieser zweiten Phase maßgeblich durch technologische Ent- 
wicklungen im Bereich der maschinellen Datenverarbeitung (etwa durch Fort- 
schritte in der Rechen- und Speichertechnik mittels Lochkarten),” aber auch 
durch die Etablierung der deskriptiven und prognostischen Statistik v.a. in der 
US-amerikanischen Sozialwissenschaft nach dem Zweiten Weltkrieg. Was die an- 
gewandten mathematischen Operationalisierungen betrifft, sind avancierte sta- 
tistische Verfahren wie Korrelationsstatistik, multivariate Verteilungen, Fakto- 
renanalyse, Signifikanztests (v.a. Chi-Quadrat- und T-Test) und Informations- 
statistik die Verfahren der Wahl, die zunehmend rechnergestützt angewandt wer- 
den. 

In Deutschland etablieren sich in dieser Zeit die beiden vergleichsweise star- 
ken und auch international sichtbaren Bewegungen der literaturwissenschaftli- 
chen Kybernetik und der Empirischen Theorie der Literatur. Als literaturwissen- 
schaftlich tätige und interessierte Kybernetiker, die sich u.a. an Norbert Wiener, 


18 Claude E. Shannon und Warren Weaver: The Mathematical Theory of Communication. Ur- 
bana, Ill. 1949; Pierre Guiraud: Problémes et méthodes de la statistique linguistique. Dordrecht 
1959; Gustav Herdan: Quantitative Linguistics. London 1964; Charles Muller: Initiation ä la statis- 
tique linguistique. Paris 1968. 

19 Anwendungsbeispiele sind die prominente Pionierarbeit von Roberto Busa: Index Thomisti- 
cus. Sancti Thomae Aquinatis operum omnium indices et concordantiae, in quibus verborum om- 
nium et singulorum formae et lemmata cum suis frequentiis et contextibus variis modis referuntur. 
56 Bde. Stuttgart-Bad Cannstatt 1974-1980, als auch Inger Rosengren: Ein Frequenzwörterbuch 
der deutschen Zeitungssprache. Die Welt, Süddeutsche Zeitung. 2 Bde. Lund 1972-1977. 
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Georg Klaus und Heinz Liebscher anlehnen,” lassen sich etwa Arbeitsgruppen in 
Aachen um Wilhelm Fucks (mit Burghard Rieger) oder in Stuttgart um Max Bense 
(mit Helmut Kreuzer und Rul Gunzenhäuser) identifizieren. Programmbildende 
Publikation wie Mathematik und Dichtung (1965) von Kreuzer und Gunzenhau- 
ser,” die Zeitschrift »Grundlagenstudien aus Kybernetik und Geisteswissen- 
schaft« mit zahlreichen Beilagen und Sonderbänden (ab 1960) sowie die »Zeit- 
schrift für Literaturwissenschaft und Linguistik« (ab 1971) entstehen in dieser 
Zeit. Charakteristisch für diese Phase sind die zeittypische Begeisterung für Fort- 
schritt und Technik, die Verknüpfung von Kunst und szientifischen Verfahren, 
eine sehr stark interdisziplinäre Ausrichtung und das Selbstverständnis als infor- 
melle Arbeitsgruppe, in der auch Künstler, Musiker und Dichter willkommen 
sind. Ebenfalls charakteristisch für diese Phase sind Versuche, Literatur, Musik 
und Kunst nicht nur quantitativ zu analysieren, sondern probabilistische und al- 
gorithmische Verfahren zur Herstellung von Computerkunst, also für die Gene- 
rierung von Texten, Musik und Grafiken zu verwenden.” 

Deutlich stärker an Institutionalisierung interessiert war der Ansatz der Em- 
pirischen Theorie der Literatur, kurz: Empirische Literaturwissenschaft (ELT), die 
Siegfried J. Schmidt an der Universität-Gesamthochschule Siegen ab Ende der 
1970er Jahre entwickelte und dafür das Institut für Empirische Literatur- und Me- 
dienforschung gründete.” Parallele Entwicklungen finden sich in der Leser- und 


20 Norbert Wiener: Cybernetics or control and communication in the animal and the machine. 2. 
Aufl. Cambridge, Mass. 1961 [1948]; Georg Klaus und Heinz Liebscher: Was ist, was soll Kyberne- 
tik? 9., überarb. und erg. Aufl. Leipzig, Jena, Berlin 1974 [1966]. 

21 Helmut Kreuzer und Rul Gunzenhäuser (Hg.): Mathematik und Dichtung. Versuche zur Frage 
einer exakten Literaturwissenschaft. 3. durchgesehene Aufl. München 1969. 

22 Vgl. etwa Herbert E. Bruderer: Sprache, Technik, Kybernetik. Aufsätze zur Sprachwissenschaft, 
maschinellen Sprachverarbeitung, künstlichen Intelligenz und Computerkunst. Münsingen bei 
Bern 1978; Alain Vuillemin und Michel Lenoble (Hg.): Litterature et informatique. La litterature 
générée par ordinateur. Arras Cedex 1995; David Link: Poesiemaschinen — Maschinenpoesie. Zur 
Frühgeschichte computerisierter Texterzeugung und generativer Systeme. München 2007; Christo- 
pher Funkhouser: »Digital Poetry. A Look at Generative, Visual, and Interconnected Possibilities 
in its First Four Decades«, in: A Companion to Digital Literary Studies, hg. v. Ray Siemens und 
Susan Schreibman. Malden, MA u.a. 2007 (Blackwell companions to literature and culture 50), 
S. 318-335; Roberto Simanowski: Textmaschinen — Kinetische Poesie — Interaktive Installation. 
Zum Verstehen von Kunst in digitalen Medien. Bielefeld 2012; Claus-Michael Schlesinger: »Genetic 
Editions to the Extreme? Conserving Historical Text Generators«, in: Digital Humanities 2017 Con- 
ference Abstracts, hg. v. Rhian Lewis, Cecily Raynor, Dominic Forest, Michael Sinatra und Stéfan 
Sinclair, S. 661-663, https://dh2017.adho.org/abstracts/394/394.pdf (3.9.2017). 

23 Siegfried J. Schmidt: Grundriß der empirischen Literaturwissenschaft. 2 Teilbde. Braun- 
schweig, Wiesbaden 1980-1982; Karsten Gries, Claudius R. Köster, Lutz Kramaschki und Heike 
Schreiber (Hg.): Rezeption der empirischen Theorie der Literatur in Rezensionen und Handbiichern 
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Textwirkungsforschung, der empirischen Rezeptionsforschung sowie der Litera- 
tur- und Sprachdidaktik jener Zeit.” 

Die dritte Kulminationsphase quantitativer Verfahren ist die Zeit ab etwa 
dem Beginn des 21. Jahrhunderts. Nun wird die Quantitative Literaturwissen- 
schaft von den Digital Humanities absorbiert. Ihre Entfaltung ist darin oft eher 
implizit, weil der Fokus weniger auf der Reflexion der Qualität des Quantitativen 
liegt, sondern Quantifizierung als eingeführte und anerkannte Methode gilt, ge- 
winnbringend angewendet und eng mit qualitativen und hermeneutischen Ver- 
fahren verknüpft wird. Die Betonung dieser Dialektik von Quantität und Qualität 
war sehr erfolgreich darin, die breite Akzeptanz der Digital Humanities zu för- 
dern, und zwar in einem Maße, wie es der Quantitativen Literaturwissenschaft in 
früheren Jahrhunderten nicht gelungen war. 
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Cornelis Menke 
Zum Ideal der Quantifizierung 


Abstract: Quantification in sciences and humanities may be considered to serve 
two different forms of objectivity: first, it may serve the object of a truthful repre- 
sentation of reality (absolute objectivity); second, it may serve to ensure trust 
among researchers (mechanical objectivity). Taking the >crisis of confidence 
within contemporary psychology as an example, I consider the question which 
conditions must be fulfilled for quantification to serve these ideals. I shall argue 
that big data, while permitting the pursuit of new research questions and pro- 
grammes, at the same time may undermine the value of quantitative measures by 
allowing for new research practices like a mechanical search for patterns in data, 
thus compromising both ideals of objectivity. 


1 Das Ideal der Quantifizierung 


Auf dem Balkon des Social Science Research Building der University of Chicago, 
1126 59th Street, findet sich eine Variante eines berühmtes Ausspruchs des briti- 
schen Physikers Sir William Thomson, des späteren Lord Kelvin, in den Stein ge- 
hauen: 


»When you cannot measure * your knowledge is * meager * and * unsatisfactory *« 
Lord Kelvin 


Die Inschrift auf dem Gebäude »Eleven Twenty-Six« ist amerikanisiert (»meager« 
anstelle von »meagre«); neben den Anführungszeichen finden sich dort fünf 
kleine Blumen, hier durch * wiedergegeben, welche Auslassungen markieren.' 


1 Die Deutung der Blumen als Auslassungszeichen ist schlagend; die beiden Blumen um »and« 
gehen auf den Soziologen William F. Ogburn zurück, der das Diktum ausgewählt und dort Aus- 
lassungszeichen gesetzt hatte. (Vgl. Robert K. Merton, David L. Sills und Stephen M. Stigler: »The 
Kelvin Dictum and Social Science: An Excursion into the History of an Idea«, in: Journal for the 
History of the Behavioral Sciences 20 (1984), S. 319-331.) Thomas Kuhn hat die Blumen beim Zi- 
tieren ausgelassen und so eine weitere Version des Diktums gepragt (Thomas S. Kuhn: »The 
Function of Measurement in Modern Physical Science«, in: Isis 52.2 (1961), S. 161-193, hier S. 161; 
Nachdruck in Thomas S. Kuhn: The Essential Tension. Chicago, London 1977, S. 178). 
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Robert K. Merton, David L. Sills und Stephen M. Stigler haben gemeinsam die Ge- 
schichte des Diktums rekonstruiert; die Ursprungsvariante findet sich am Anfang 
der Vorlesung »Electrical Units of Measurement« von 1883: 


I often say that when you can measure what you are speaking about, and express it in num- 
bers, you know something about it; but when you cannot measure it, when you cannot ex- 
press it in numbers, your knowledge is of a meagre and unsatisfactory kind: it may be the 
beginning of knowledge, but you have scarcely, in your thoughts, advanced to the stage of 
science, whatever the matter may be.” 


Das Diktum Kelvins ist in mehreren abweichenden Varianten tradiert, teils mit 
sprachlichen Abweichungen (»If you cannot measure ...«), teils mit inhaltlichen. 
Eine ähnliche Aussage aus dem Jahr 1692 findet sich bei John Arbuthnot: »There 
are very few things which we know; which are not capable of being reduc’d to a 
Mathematical Reasoning; and when they cannot, it’s a sign our Knowledge of 
them is very small and confus’d.«? Weitere Varianten der Aussage finden sich bei 
Roger Bacon, Francis Bacon, Leonardo da Vinci und Immanuel Kant.’ Es ist nicht 
verwunderlich, dass das Diktum Kelvins, Abwandlungen davon und ähnliche 
Aussagen gerade in der Statistik häufig zitiert werden, der Wissenschaft von der 
Messung und deren Fehlern (neben anderem). Der Epidemiologe und Statistiker 
Austin Bradford Hill etwa, ein Vorreiter randomisierter klinischer Studien, hat 
sich auf einen ähnlichen Ausspruch Hermann von Helmholtz’ bezogen, dem er 
die pointiertere Aussage »all science is measurement« zuschreibt.* 

Die Wahl des Ausspruchs Thompsons für die Fassade des Social Science Re- 
search Buildings geht auf den Soziologen William Fielding Ogburn zurück, der 
von 1927 bis zu seiner Emeritierung an der University of Chicago lehrte; sie zeugt 
von dem Prestige des Ideals der Quantifizierung in den Wissenschaften. 


2 William Thomson [Lord Kelvin]: Popular Lectures and Addresses 1. Constitution of Matter. Lon- 
don 1889, S. 73f.; vgl. Merton, Sills und Stigler: »The Kelvin Dictum and Social Science«, S. 326. 
3 Zitiert nach ebd., S. 325. 

4 Vgl. Stephen M. Stigler: The History of Statistics. The Measurement of Uncertainty before 1900. 
Cambridge MA, London 1986, S. 1. 

5 »The essence of an experiment in the treatment of a disease lies in comparison. To the dictum 
of Helmholtz that »all science is measurement,< we should add, Sir Henry Dale has pointed out, 
a further clause, that >all true measurement is essentially comparative.«« (Austin Bradford Hill: 
Bradford Hill’s Principles of Medical Statistics. London 1991 [1955], S. 5). Der Ursprung des Zitats 
ist dunkel. 
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2 Quantifizierung und mechanische Objektivitat 


Woher stammt und worauf griindet sich das Prestige quantitativer Methoden in 
der Wissenschaft? Die übliche Antwort - es gründe sich auf den Erfolg quantita- 
tiver Methoden in den Naturwissenschaften — hat der Wissenschaftshistoriker 
Theodore Porter für unbefriedigend gehalten, da nicht klar sei, warum Methoden, 
die sich beim Studium von Sternen und Molekülen bewährt hätten, ein Vorbild 
für die Humanwissenschaften darstellen sollten, und vorgeschlagen, die Blick- 
richtung umzukehren: Statt das Prestige der Quantifizierung außerhalb der Na- 
turwissenschaften durch deren Erfolg innerhalb zu erklären, sei es fruchtbar, die 
Rolle von Quantifizierung in der Geschäftswelt und den Sozialwissenschaften zu 
untersuchen, um ihre Rolle in den Naturwissenschaften besser zu verstehen. Por- 
ter betrachtet Quantifizierung wesentlich als eine Kommunikationsstrategie 
- eine Form der standardisierten Darstellung und Übermittlung von Informatio- 
nen in und durch Zahlen, deren Strenge und Einheitlichkeit dort zum Vertrauen 
beitragen könne, wo etwa eine persönliche Bekanntschaft mit anderen Forschern 
nicht gegeben sei: »Quantification«, so Porter, »is a technology of distance.«° Mit 
Quantifizierung sei ein bestimmtes Ideal der Objektivität — »mechanical objecti- 
vity« — verbunden, das auf ein Zurückdrängen des Urteilens und einen Kampf 
gegen subjektive Einflüsse abziele, und es sei diese Art der Objektivität, auf die 
sich die Autorität der Wissenschaft maßgeblich gründe. 

Der Siegeszug der Statistik in den Wissenschaften müsse wenigstens teil- 
weise als eine Antwort auf »conditions of mistrust and exposure to outliers« ver- 
standen werden.’ Zwar begriffen die Anwender der Statistik diese nicht ganz zu 
Unrecht als eine der Mathematik entstammende Disziplin; doch sei auffällig, 
dass statistische Methoden sich eben nicht sabwärts« in der Hierarchie der Wis- 
senschaften verbreitet hätten, von der Mathematik und Physik in die Lebens- und 
Sozialwissenschaften, sondern im Gegenteil von den »weichen« Disziplinen, der 
Psychologie und der Medizin, am bereitwilligsten aufgenommen worden seien: 
eben solchen, in welchen es, innerhalb der Disziplin wie auch von außen, an Ver- 
trauen mangele: »Lack of trust is [...] characteristic of new or weak disciplines. It 
might almost be taken as the defining feature of weak disciplines.«® 


6 Theodore M. Porter: Trust in Numbers. The Pursuit of Objectivity in Science and Public Life. 
Princeton 1995, S. ix. 

7 Ebd., S. 200. 

8 Ebd., S. 200. 
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Ein Beispiel Porters ist die Fehlertheorie, eine der friihesten Routineanwen- 
dungen inferentieller Statistik: Wahrend die ersten Anwendungen statistischer 
Methoden etwa zur Identifizierung von Ausreißern (groben Messfehlern) von Ast- 
ronomen für eigene Zwecke und an eigenen Daten durchgeführt worden seien, 
habe sich im 19. Jahrhundert mit größeren Observatorien die Frage gestellt, in- 
wieweit dem Urteil von Assistenten beim Ausschließen von Ausreißern vertraut 
werden könne - »The problem of recruiting, training, and supervising unprofes- 
sional labor was central to the early history of error theory.«? In die Psychologie 
wiederum habe die Statistik über standardisierte Intelligenztests Einzug gehal- 
ten, ausgehend von den Vereinigten Staaten, wo (anders als in Europa) der Zu- 
gang zu Bildungseinrichtungen Anfang des 20. Jahrhunderts zunehmend auf der 
Grundlage standardisierter Tests erfolgte. 


3 Krisen der Quantifizierung 


Beiden mit der Quantifizierung von Wissenschaften verbundenen Idealen der Ob- 
jektivität ist die Statistik nur teilweise gerecht geworden: Weder verbiirgt sie in 
den einzelnen Disziplinen eine »objektive« Abbildung der Wirklichkeit, noch hat 
sie das Problem des Vertrauens gelöst. Beide Aspekte finden sich in den Benen- 
nungen der Krisen statistischer Quantifizierung wieder, die teils als Replikations- 
krisen (replication crises), teils als Vertrauenskrisen (crises of confidence) be- 
zeichnet werden. Das jüngste und gegenwärtig prominenteste Beispiel ist die 
Vertrauenskrise in der Psychologie. Bedenkt man, dass statistische Tests ihren 
Einzug in die Psychologie nicht zuletzt im Kontext von Experimenten zum Nach- 
weis parapsychologischer Phänomene gehalten haben, ist es nicht ohne Ironie, 
dass einer der Anlässe für die Vertrauenskrise eine Veröffentlichung des Psycho- 
logen Daryl J. Bem im Jahr 2011 war, in welchem dieser über »Experimental Evi- 
dence for Anomalous Retroactive Influences on Cognition and Affect« berichtete, 
die mit Anlass zur gegenwärtigen Krise gab." 


9 Ebd. 

10 Ebd., S. 209-211. 

11 Vgl. DarylJ. Bem: »Feeling the Future. Experimental Evidence for Anomalous Retroactive In- 
fluences on Cognition and Affect«, in: Journal of Personality and Social Psychology 100.3 (2011), 
S. 407-425; zur Bedeutung parapsychologischer Experimente vgl. Ian Hacking: »Telepathy. Or- 
igins of Randomization in Experimental Design«, in: Isis 79.3 (1988), S. 427-451. 
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Die Komplexität der Krise und mögliche Ursachen können hier nur angedeu- 
tet werden: Eigentümlich für die Psychologie ist die Dominanz einer Form statis- 
tischen Testens (des sogenannten Null Hypothesis Significance Testing, kurz 
NHST), welche den Schwerpunkt auf die Angabe eines bestimmten numerischen 
Werts, des sogenannten p-Werts, legt. Dieser gibt auf einer Skala von 0 bis 1 an, 
wie häufig ein experimenteller Befund oder ein noch »extremerer« ist, wenn es 
keinen Effekt gibt, man es also nur mit statistischem Rauschen zu tun hat. Eine 
Konvention legt in der Psychologie eine Grenze bei einem p-Wert von 0,05 fest, 
unterhalb der ein Testergebnis als »statistisch signifikant« gilt und für eine Ver- 
öffentlichung in Betracht kommt. NHST verbindet, nicht ganz konsistent, An- 
sätze verschiedener statischer Schulen.” 

Die Diskussion der letzten Jahre innerhalb der Psychologie hat verschiedene 
Schwächen dieser Praxis herausgearbeitet: So stehen Forschern viele Hand- 
lungsoptionen offen, um die Wahrscheinlichkeit für ein statistisch signifikantes 
Ergebnis deutlich zu erhöhen (researcher degrees of freedom«). Mehrere davon 
zählt man zu den »fragwürdigen Forschungspraktiken« oder »Questionable Rese- 
arch Practices«, kurz QRP, — Praktiken in einem Graubereich zwischen metho- 
disch tadellosem Vorgehen und wissenschaftlichem Fehlverhalten. Spätestens 
2015 wurde aus einer Vertrauenskrise eine Replikationskrise, als die Open Science 
Collaboration die Ergebnisse eines großangelegten Replikationsversuchs von 100 
Studien aus drei renommierten psychologischen Fachzeitschriften publizierte, 
deren Erfolg (in der Sicht der Autoren) deutlich hinter dem Wünschbaren zurück- 
blieb.” 


4 Quantifizierung und Forschungspraktiken 


Mit den Geisteswissenschaften, auch den »digitalen«, hat all dies auf den ersten 
Blick wenig zu tun — dass Geisteswissenschaftler das Diktum Kelvins als Wahl- 
spruch überhaupt in Erwägung ziehen würden, ist schwer vorstellbar. Dennoch 


12 Vgl. Gerd Gigerenzer, Zeno Swijtink, Theodore Porter, John Beatty und Lorenz Krüger: The 
Empire of Chance. How Probability Changed Science and Everyday Life. Cambridge 1989, Kap. 3. 
13 Aus dem Abstract des genannten Artikels: »Replication effects were half the magnitude of 
original effects, representing a substantial decline. Ninety-seven percent of original studies had 
statistically significant results. Thirty-six percent of replications had statistically significant re- 
sults.« (Open Science Collaboration: »Estimating the Reproducibility of Psychological Science«, 
in: Science 349 (2015), S. aac4716-1-aac4716-8, hier S. acc4716-1.) 
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kann eine Betrachtung der Probleme der Quantifizierung, die sich in anderen Fel- 
dern zeigen, lehrreich sein: Zwar sind diese oft in Teilen Probleme bestimmter 
Arten der Quantifizierung; zugleich machen sie aber auf einen weiteren Aspekt 
aufmerksam: dass nämlich Formen der Quantifizierung im Kontext von For- 
schungspraktiken beurteilt werden müssen. 

Dies soll im Folgenden an einem Beispiel verdeutlicht werden: den sich wan- 
delnden Praktiken im Umgang mit großen Datenmengen. Auf der einen Seite 
scheinen umfangreiche Daten vor allem Vorzüge zu haben: Je mehr Daten zur 
Verfügung stehen, umso sicherer sollten (ceteris paribus) statistische Beschrei- 
bungen der Daten sein; zugleich erlauben große Datensätze, mehr und neuartige 
Fragen zu stellen und zu untersuchen. Dennoch werfen große Datenmengen 
auch Probleme auf, denn sie ermöglichen neue Forschungspraktiken, etwa ein 
ungezieltes mechanisches Suchen nach Mustern - mit der Folge, dass quantita- 
tive Maßstäbe, die sich in zielgerichteter Forschung bewährt haben mögen, bei 
ungezielten Forschungspraktiken keinem der beiden angeführten Ziele der 
Quantifizierung, dem Ideal absoluter und dem mechanischer Objektivität, ge- 
recht werden. 


5 Fragwürdige Forschungspraktiken 


In einer umfangreichen anonymen Befragung von über 2000 in der Forschung 
tätigen Psychologen haben Leslie K. John, George Loewenstein und Drazen 
Prelec versucht, die Verbreitung von Questionable Research Practices (QRPs) zu 
ermitteln. Die Befragung umfasste neben Auskünften darüber, in welchem Um- 
fang man selbst in der Forschung auf QRPs zurückgegriffen habe, auch Einschät- 
zungen darüber, wie verbreitet diese bei anderen Forschern seien. In der Studie 
wurden diejenigen, die angegeben hatten, bestimmte QRPs verwendet zu haben, 
auch nach einer Bewertung gefragt, in welchem Maße dies zu rechtfertigen ge- 
wesen sei (defensibility rating); mögliche Angaben waren 0 (nein), 1 (möglicher- 
weise) oder 2 (ja). Die Studie hat nicht zuletzt aufgrund des Ergebnisses Aufmerk- 
samkeit erregt, zu dem John, Loewenstein und Prelec kommen: dass nämlich der 
Anteil derjenigen, die fragwürdige Praktiken verwendet hätten, überraschend 
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hoch sei — »that some questionable practices may constitute the prevailing rese- 
arch norm.«" 

Die Selbstauskiinfte und Bewertungen erlauben eine vergleichende Betrach- 
tung, welche Arten von QRPs unter Psychologen als (besonders) fragwiirdig an- 
gesehen werden, und eine Spekulation tiber die Griinde. Datenfalschung (Fal- 
sifying data) wird nur von weniger als 1% der Befragten zugegeben und auch von 
diesen deutlich als Fehlverhalten bewertet (mit einem Durchschnitt von 0,16 bei 
der genannten Bewertungsskala). Seltener sind Falschangaben bei Veröffentli- 
chungen hinsichtlich des Experimentdesigns und des Ergebnisses (»In a paper, 
reporting an unexpected finding as having been predicted from the start« bzw. 
»In a paper, »rounding off: a p value (e.g., reporting that a p value of .054 is less 
than .05)«; die durchschnittliche Bewertung betragt 1,50 bzw. 1,68). Nur 15,6% 
gaben an, die Datenerhebung bei einem Experiment schon einmal friiher als ge- 
plant abgebrochen zu haben, nachdem das gesuchte Ergebnis schon gefunden 
wurde (»Stopping collecting data earlier than planned«), während 55,9% anga- 
ben, schon einmal weitere Daten erhoben zu haben, wenn das Ergebnis noch 
nicht gefunden wurde (»Deciding whether to collect more data after looking to 
see whether the results were significant«); die Bewertung der Legitimität weicht 
dabei zwischen beiden Praktiken allerdings kaum voneinander ab (Durchschnitt 
1,76 bzw. 1,79). 

Weitere QRPs, nach denen gefragt wurde, umfassen unvollständige Berichte 
über Experimente (»In a paper, failing to report all of a study’s conditions«, 
27,7%) oder über Experimentserien (»In a paper, selectively reporting studies 
that »worked««, 45,8%) sowie Datenkorrekturen (»Deciding whether to exclude 
data after looking at the impact of doing so on the results«, 38,2%). Unter allen 
QRPs, nach denen gefragt wurde, am weitesten verbreitet (63,4%) und als am we- 
nigsten fragwürdig bewertet (Durchschnitt 1,84) ist allerdings, nur Teile dessen 
zu berichten, wonach in einem Versuch gesucht wurde (»In a paper, failing to 
report all of a study’s dependent measures«).” 

Die Selbstauskiinfte und Bewertungen werfen die Frage auf, wie sich die Un- 
terschiede bei den Angaben fiir die einzelnen Praktiken deuten lassen. Die Be- 
wertungen zeigen, sieht man von Datenfälschung ab, kaum Schuldbewusstsein, 
wie die durchschnittliche Bewertung von meist tiber 1,50 anzeigt; bemerkenswert 


14 Leslie K. John, George Loewenstein und Drazen Prelec: »Measuring the Prevalence of Ques- 
tionable Research Practices With Incentives for Truth Telling«, in: Psychological Science 23.5 
(2012), S. 524-532, hier S. 524. 

15 Ebd., S. 525. 
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aber ist die Spannbreite beim Eingestandnis der Praktiken. Vergleichsweise sel- 
ten sind ausdrückliche Falschangaben in Veröffentlichungen (wie etwa das Ab- 
runden von p-Werten). Dass die Datenerhebung selten bei einem positiven Ergeb- 
nis früher als geplant abgebrochen, aber oft über den geplanten Umfang hinaus 
fortgesetzt wird (bei vergleichbaren Bewertungen hinsichtlich der Rechtferti- 
gung), könnte sich dadurch erklären lassen, dass der geplante Umfang vieler Ex- 
perimente von vornherein an der unteren Grenze dessen liegt, was aussagekräf- 
tige Ergebnisse erwarten lässt. Häufig sind hingegen besonders Formen 
unvollständiger Berichte: fehlende Angaben über nicht-erfolgreiche Experi- 
mente, über Manipulationen im Experiment sowie, vor allem, über mitbetrach- 
tete mögliche Wirkungen. 


6 Probleme der Quantifizierung 


Man kann an dieser Stelle die Frage aufwerfen, warum unvollständige Berichte 
überhaupt zu »fragwürdigen« Forschungspraktiken gezählt werden. Die Verbrei- 
tung dieser Praxis, die John, Loewenstein und Prelec in der Psychologie gefun- 
den haben, deutet jedenfalls darauf hin, dass unter Forschern ein Unrechtsbe- 
wusstsein wenig verbreitet ist. 

Eine Antwort auf diese Frage ist eher technischer Natur und nimmt auf die 
Interpretation des p-Werts Bezug. Beträgt die Wahrscheinlichkeit eines statis- 
tisch signifikanten Resultats 5%, wenn tatsächlich kein Effekt, sondern nur die 
erwarteten statistischen Abweichungen innerhalb der Daten vorliegen - dies ist 
es ja, was ein p-Wert von 0,05 der Definition nach aussagt - so liegt umgekehrt 
die komplementäre Wahrscheinlichkeit dafür, unter dieser Voraussetzung kein 
statistisch signifikantes Resultat zu erhalten, bei 95%. Würde man das Experi- 
ment nun 20-mal wiederholen, betrüge die Wahrscheinlichkeit, unter den 20 Ver- 
suchen dennoch wenigstens ein statistisch signifikantes Resultat zu erhalten, 
mehr als 64% - denn die komplementäre Wahrscheinlichkeit, in den 20 unab- 
hängigen Versuchen nie ein statistisch signifikantes Ergebnis zu erhalten, ent- 
spricht gerade 0.95°°=36%. 

Möchte man p-Werte als Aussagen über Häufigkeiten deuten, so kommt es 
daher, wenn man dieser Überlegung folgt, nicht allein auf die Ergebnisse »erfolg- 
reicher< Versuche an, sondern deren Wert vermindert sich, wenn viele Versuche 
unternommen wurden. — Die Überlegung lässt sich nun auch auf einen Versuch 
übertragen, in dem 20 verschiedene mögliche Wirkungen eines Eingriffs unter- 
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sucht werden: Wiederum beträgt die Wahrscheinlichkeit, dass eine dieser Wir- 
kungen statistisch signifikant auftritt, bei 20 möglichen 64%, wenn jede einzelne 
eine Wahrscheinlichkeit von 5% besitzt." 

Diese Überlegung steht im Hintergrund der Auffassung, es stelle eine frag- 
würdige Forschungspraxis dar, bei einem Bericht über einen statistischen Befund 
untersuchte mögliche Wirkungen nicht zu erwähnen. Zugleich wird aber auch 
deutlich, wie problematisch die scheinbar objektiven statistischen Angaben 
sind: Damit die berechneten Angaben tatsächlich mit ihrer Interpretation als 
Häufigkeiten in Einklang stehen, müsste man ja nicht allein das gesamte Experi- 
ment darstellen, sondern auch gescheiterte Vorversuche und Versuche anderer 
Forscher mit in Betracht ziehen, was zunächst rein praktisch vielfach unmöglich 
ist. 

Es ist aber zugleich kontraintuitiv: Spinnt man den Gedanken weiter, wären 
möglicherweise auch Versuche in einem ganz anderen Forschungsbereich für die 
Interpretation des eigenen Versuchs relevant. Betrachtet man diese Versuche zu- 
sammen, so würde die Wahrscheinlichkeit, bei wenigstens einem ein statistisch 
signifikantes Resultat zu erhalten, ja ebenfalls davon abhängen, wie viele Versu- 
che insgesamt, zu ganz unterschiedlichen Fragestellungen, unternommen wur- 
den. - Es ist nicht offenkundig, wo und mit welcher Begründung hier die Grenze 
zu ziehen wäre; die Überlegung soll an dieser Stelle einzig vor Augen führen, vor 
welche Probleme sich der Versuch der Quantifizierung von Geltungsfragen ge- 
stellt sieht, wenn man statistische Daten in einem größeren Umfang untersucht. 
Das fehlende Problembewusstsein vieler Forscher ist vor diesem Hintergrund 
vielleicht durchaus verständlich. 

Die Suche nach Mustern in statistischen Daten wirft eine weitere Frage auf: 
in welchem Maße nämlich eine rein auf quantitative Maße gestützte heuristische 
Suche überhaupt erfolgversprechend ist. In einem Gedankenexperiment hat der 
Pragmatist Charles Sanders Peirce plausibel machen wollen, dass eine mechani- 
sche Mustersuche ohne Vorannahmen fruchtlos sei. Peirce schließt seine 1883 er- 
schienene Abhandlung A Theory of Probable Inference, eine frühe Theorie der 
Wahrscheinlichkeitsschlüsse, mit einer kurzen Betrachtung, inwieweit sich diese 
Theorie auf die »Logic of Scientific Investigation«, die Methodologie, beziehen 
lasse. Die Betrachtung führt ein Problem vor Augen, das sich einer heuristischen 
Suche in großen Datenmengen stellt, insofern diese Suche sich rein auf die Be- 
trachtung von statistischen Korrelationen und Abhängigkeiten stützt. 


16 Eine frühe Betrachtung des Problems findet sich bei Ronald A. Fisher: The Design of Experi- 
ments. Edinburgh, London 1935, S. 66; voraussetzen muss man freilich, dass die einzelnen Fol- 
gen unabhängig sind. 
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Peirce imaginiert den Fall, ein außerirdisches Wesen suche nach Regelmä- 
Rigkeiten und Zusammenhängen im United States Census, der in den Vereinigten 
Staaten seit 1790 verfassungsgemäß alle 10 Jahre stattfindenden Volkszählung. 
Die Schwierigkeit, die sich stellt, ergibt sich nach Peirce daraus, dass viele mög- 
liche Zusammenhänge, die man näher untersuchen könnte, von vornherein 
kaum als kausale Zusammenhänge zu deuten wären, was sich aber ohne inhalt- 
liche Kenntnisse nicht erkennen lässt: 


Suppose a being from some remote part ofthe universe, where the conditions of existence 
are inconceivably different from ours, to be presented with a United States Census Report, 
— which is for us a mine of valuable inductions, so vast as almost to give that epithet a new 
signification. He begins, perhaps, by comparing the ratio of indebtedness to deaths by con- 
sumption in counties whose names begin with the different letters of the alphabet. It is safe 
to say that he would find the ratio everywhere the same, and thus his inquiry would lead to 
nothing. [...] The stranger to this planet might go on for some time asking inductive ques- 
tions that the Census would faithfully answer, without learning anything except that cer- 
tain conditions were independent of others. At length, it might occur to him to compare the 
January rain-fall with the illiteracy. [...] 

He would infer that in places that are drier in January there is, not always but gener- 
ally, less illiteracy than in wetter places. A detailed comparison between Mr. Schott’s map 
of the winter rain-fall with the map of illiteracy in the general census, would confirm the 
result that these two conditions have a partial connection. [...] Now we, knowing as much 
as we do of the effects of winter rain-fall upon agriculture, upon wealth, etc., and of the 
causes of illiteracy, should come to such an inquiry furnished with a large number of ap- 
propriate conceptions; so that we should be able to ask intelligent questions not unlikely to 
furnish the desired key to the problem. But the strange being we have imagined could only 
make his inquiries haphazard, and could hardly hope ever to find the induction of which 
he was in search.” 


Das Gedankenexperiment dient Peirce dazu, einen Punkt plausibel zu machen, 
der ihn über lange Zeit beschäftigt hat: Dass es nämlich verwunderlich und er- 
klärungsbedürftig ist, dass man überhaupt je zu Theorien und Erklärungen ge- 
langt, die sich bewähren. Die Erklärung, die Peirce für dieses Problem gibt, liegt 
darin, eine natürliche Anlage, richtig zu raten, anzunehmen. Den Mechanismus 
deutet Peircein der angeführten Schrift nur an: Es seien angeborene, wenngleich 
rohe Ideen (der Kraft, des Raumes und der Zeit, der menschlichen Natur), auf 


17 Charles S. Peirce: »A Theory of Probable Inference«, in: Writings of Charles Sanders Peirce. A 
Chronological Edition, Volume 4: 1879-1884, hg. v. Christian J. W. Kloesel. Bloomington, Indian- 
apolis 1989 [1883], S. 408-450, hier S. 446-447. 
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welchen erfolgreiches Raten und damit auch die Naturwissenschaften und »mo- 
ral sciences: notwendig beruhten: »all human knowledge, up to the highest 
flights of science, is but the development of our inborn animal instincts.«'® 

Die von Peirce imaginierte Situation, ein mechanisches Durchsuchen von Da- 
ten ohne Vorannahmen und Fragestellungen, war zu seiner Zeit keine For- 
schungspraxis, die ernsthaft in Betracht gekommen wäre - das »strange being« 
unterscheidet sich von menschlichen Forschern durch das Fehlen der for- 
schungsleitenden Ideen, nicht in der Art der Forschung. Heute verfügen wir über 
Computerprogramme, die nach Korrelationen oder Hinweisen auf Kausalbezie- 
hungen in Daten suchen.” Auch das Experimentieren hat sich gewandelt: In der 
Pharmaforschung werden heute in High-Throughput-Screenings oft abertau- 
sende Substanzen pro Tag auf mögliche Leitstrukturen zur Entwicklung neuer 
Arzneistoffe durchmustert; nicht zuletzt führt das stetige Wachstum der zur Ver- 
fügung stehenden Daten in vielen Forschungsfeldern dazu, dass blindes Suchen 
nach Mustern zu einer möglichen Heuristik der Forschung geworden ist. 


7 Kelvins Diktum 


Ob Peirce’ Annahme, die blinde Suche nach Mustern und Korrelationen stelle 
eine aussichtslose Forschungspraxis dar, noch zutrifft, ist letztlich eine empiri- 
sche Frage; die Schwierigkeit bei der Interpretation der p-Werte in statistischen 
Experimenten mit vielen untersuchten Wirkungen zeigen allerdings an, dass die 
Interpretation dieses quantitativen Maßes nicht unabhängig von den For- 
schungspraktiken ist, in welche es eingebettet ist. Die Verwendung von p-Wert- 
Verfahren in den Wissenschaften hat ihren Ausgang Anfang des 20. Jahrhunderts 
von agrarwissenschaftlichen Experimenten genommen; vor allem war es der Sta- 
tistiker und Biologe Ronald A. Fisher, der viele der Verfahren während seiner Tä- 
tigkeit als Chief Statistician an der Rothamsted Experimental Station entwickelte. 
Eines seiner Ziele war es, exakte Verfahren zur Beurteilung gerade sehr kleiner 
Stichproben bzw. Versuche zu finden - der Grund dafür war eben, dass agrarwis- 
senschaftliche Experimente aufwendig und teuer sind, so dass das Erheben gro- 


18 Ebd., S. 450. 

19 Siehe z. B. Clark Glymour, Richard Scheines, Peter Spirtes und Kevin Kelly: Discovering 
Causal Structure. Artificial Intelligence, Philosophy of Science, and Statistical Modeling. Orlando 
1987. 
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Ber Datenmengen nicht in Frage kam. Trotz der kleinen Stichproben, die der For- 
schung zur Verfügung standen, bereitete aber die Interpretation der p-Werte we- 
niger Schwierigkeiten als heute. Dies rührt teils daher, dass die Wahl kleiner 
Stichproben die Kehrseite der hohen Kosten von Experimenten war — und die 
Kosten von Experimenten eine weitere Wirkung hatten: Sie schlossen nicht allein 
umfangreiches, sondern zugleich auch ungezieltes Experimentieren in größerem 
Umfang praktisch aus. 

Den Wert von Quantifizierung an Forschungspraktiken zu binden, scheint 
theoretisch wie praktisch unbefriedigend: theoretisch, weil die Grenze zwischen 
‚explorativen« und »testenden« Forschungspraktiken unscharf und willkürlich er- 
scheint; praktisch, weil der Nutzen großer Datenmengen gerade auch darin zu 
liegen scheint, eine explorative Suche nach Zusammenhängen zu ermöglichen, 
nach denen man gezielt nicht gesucht hätte. Insofern aber die Quantifizierung 
nicht um ihrer selbst willen erstrebt wird, sondern eine Form der Objektivität wis- 
senschaftlicher Geltungsansprüche begründen soll, ist der Bezug auf For- 
schungspraktiken dennoch sinnvoll: Kelvins Diktum ist völlig vereinbar damit, 
dass auch Wissen von etwas, das sich messen und in Zahlen ausdrücken lässt, 
oft dürftig und unbefriedigend ist.” 
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Friederike Schruhl 
Quantifizieren in der Interpretationspraxis 
der Digital Humanities 


Abstract: Quantitative methods experience an upswing in literary studies due to 
the possibilities of digitalization and the ongoing innovations and refinements in 
digital humanities. The following article deals with these quantitative ap- 
proaches to text handling from a praxeological perspective. It aims at locating 
quantitative research within the interpretative praxis of digital humanities. By 
means of selected papers from leading digital humanities journals it systemati- 
cally examines constituent sub-practices of quantifying such as counting, calcu- 
lating and visualizing, as well as their prerequisites and epistemic content. 
Thereby it makes a substantial contribution to the current debate between digital 
humanities and classical literary scholarship. 
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Es ist ein wiederkehrender Topos, quantifizierende Arbeiten mit derlei beein- 
druckenden Zahlen einzuleiten und angesichts dessen die Belastbarkeit bzw. das 
Leistungsvermögen der Literaturwissenschaft infrage zu stellen.” Die »gigan- 
tisch[e] Menge an Informationen«, die durch die Digitalisierung den Geistes-, mit- 
hin den Literaturwissenschaftlern zugänglich wurde, ginge mit »gewaltigen Her- 
ausforderungen« einher: 


Wie können sie auf diese Fülle zugreifen und sie für ihre Forschung verwenden? Ein 
Mensch kann in seinem Leben etwa 4000 Bücher lesen. Selbst wenn ein Forscher ohne 
Pause arbeiten würde, könnte er damit nur einen Bruchteil des vorhandenen Wissens er- 
fassen.® 


Auch Matthew Jockers macht anhand von Zahlen eines Fallbeispiels deutlich, 
dass es »zu viel zu lesen: gebe: 


Take the case of a scholar conducting research for a hypothetical paper about Melville’s 
metaphysics. A query for whale in the Google Books library produces 33,338 hits - way too 
broad. Narrowing the search by entering whale and god results in more manageable 3,715 
hits, including such promising titles as American Literature in Context and Melville’s Quarrel 
with God. Even if the scholar could further narrow the list to 1,000 books, this is still far too 
many to read in any practical way.’ 


Oftmals wird die Anzahl der digitalisierten Objekte zum Ausgangspunkt für ein 
wissenschaftliches Überforderungsszenario, um aus diesem Befund einen nor- 
mativen Imperativ zu deduzieren, die »million book-situation« würde der Geis- 
teswissenschaft und insbesondere der Literaturwissenschaft zu viel abverlangen 
und es wäre dringend nötig, endlich auf die Digitalisierung zu reagieren. Chris 


Wolfgang Schmale. Stuttgart 2015, S. 139-156. Zudem Hubertus Kohle: »Digitales Publizieren«, 
in: Digital Humanities. Eine Einführung, hg. v. Fotis Jannidis, Hubertus Kohle und Malte Rehbein. 
Stuttgart, Weimar 2017, S. 199-205, hier S. 202. Einen Überblick über ausgewählte Digitalisie- 
rungsprojekte bietet zudem Heike Neuroth: »Bibliothek, Archiv, Museum«, in: Jannidis, Kohle 
und Rehbein (Hg.): Digital Humanities, S. 213-222, hier S. 218-220. 

5 Obes »die« Literaturwissenschaft gibt, darf zurecht bezweifelt werden. Wenn ich von »der« Li- 
teraturwissenschaft spreche, geschieht dies behelfsmäßig im Sinne eines Kollektivsingulars. 

6 Tomislav Bodrozic: Virtuelle Forschungswelten, https://www.youtube.com/watch?v=JRBYR9 
OA45Q. (9. Oktober 2017). Zitiert nach den Transkriptionen von Michael Bender: Forschungsum- 
gebungen in den Digital Humanities. Nutzerbedarf, Wissenstransfer, Textualität. Berlin, Boston 
2016, S. 2. 

7 Matthew Jockers: Macroanalysis. Digital Methods and Digital Literary. Urbana u. a. 2013, S. 9. 
8 Das Vorwort und etliche Beitrage in dem Band Big Data. Das neue Versprechen der Allwissen- 
heit, hg. v. Heinrich Geiselberger und Tobias Moorstedt. Berlin 2013 liefern dafür zahlreiche Be- 
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Anderson fordert beispielsweise, dass es »höchste Zeit [sei] zu fragen, was wir 
von Google lernen können« und Matthew Jockers postuliert:? 


These massive digital-text collections - from vendors such as Chadwyck-Healey, from 
grassroots organizations such as Project Gutenberg, from nonprofit groups such as the In- 
ternet Archive and HathiTrust, and from the elephants in Mountain View, California, and 
Seattle, Washington — are changing how literary studies get done. [...] The larger literary 
record can no longer be ignored: it is here, and much of it is now accessible.!? 


Tatsächlich bleiben, wenn man davon ausgeht, dass ein Mensch im Laufe seines 
Lebens durchschnittlich 4 000 bis 5 000 Biicher lesen kann, eine Vielzahl an Bii- 
chern ungelesen oder gar unbeachtet." Allerdings ist die Tatsache, dass ein ein- 
ziger Literaturwissenschaftler nicht alles lesen kann,” nicht unmittelbar mit der 
voranschreitenden Digitalisierung verbunden." Auch wenn die Digitalisierung 
den Zugang zu Texten selbstverständlich erleichtert und die Sichtbarkeit jegli- 
cher, auch nicht kanonisierter Texte erhöht oder erst hervorbringt, schafft die un- 
überblickbare Menge von Publikaten keine substantiell neuartige Situation. Al- 
leine die Zweigbibliothek Germanistik der Universitätsbibliothek der Humboldt- 
Universität zu Berlin wird mit einem Bestand von 9 2500 Bänden und 145 Zeit- 
schriftenabonnements auch schon in vordigitaler Zeit wohl kaum von jemandem 
vollständig gelesen oder vollumfänglich registriert worden sein.“ 


lege. Ebenso der Feuilletonbeitrag von Gerhard Lauer: »Literatur rechnen. Lektüre im Compu- 
terzeitalter«, in: FAZ vom 26. August 2009, http://www.faz.net/aktuell/feuilleton/geisteswis 
senschaften/literatur-rechnen-lektuere-im-computerzeitalter-1840973.html (10. Oktober 2017). 
9 Chris Anderson: »Das Ende der Theorie. Die Datenschwemme macht wissenschaftliche Me- 
thoden obsolet«, in: Geiselberger und Moorstedt: Big Data, S. 124-131, S. 130. 

10 Jockers: Macroanalysis, S.7. 

11 Bodrozic: Virtuelle Forschungswelten. Vgl. die Ausführungen von Gregory Crane: »The Greek 
historian Herodotus has the Athenian sage Solon estimate the lifetime of a human being at c. 
26,250 days. If we could read a book on each of those days, it would take almost forty lifetimes 
to work through every volume in a single million book library.« Gregory Crane: »What Do You 
Do with a Million Books?«, in: D-Lib Magazine 12.3 (2006), http://www.dlib.org/dlib/march06/ 
crane/O3crane.html (10. Oktober 2017). 

12 Hierbei ist es wichtig, sich zu vergegenwärtigen, dass die Überforderungssituation eines ein- 
zelnen Literaturwissenschaftlers nicht identisch ist mit der Disziplin insgesamt. Das gesamte 
Fach der Germanistik hat eine — wie die Fachgeschichte zeigt - enorm hohe Belastungsgrenze. 
13 Vgl. Ann Blair: Too Much to Know. Managing Scholarly Information Before the Modern Age. 
New Haven, London 2010; Peter Burke: Die Explosion des Wissens. Von der Encyclopedie bis Wi- 
kipedia. Berlin 2004. 

14 Vgl. die Standortinformationen der Zweigbibliothek Germanistik der Humboldt-Universität 
zu Berlin: https://www.ub.hu-berlin.de/de/standorte/copy_of_zwbgermanistik/standort-infor 
mationen (10. Oktober 2017). 
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Wer aus der Quantität an Daten ein qualitativ neuartiges Uberforderungssze- 
nario ableitet, übersieht zudem, dass sich Geistes- respektive Literaturwissen- 
schaftler bereits vor dem digital turn mit der Herausforderung, nicht alles rezipie- 
ren und berücksichtigen zu können, konfrontiert sahen und sich einen 
voraussetzungsreichen und anspruchsvollen Umgang mit der Problematizität 
des Ungelesenen, des Auslassens oder des Fehlens angeeignet haben: 


Dass angesichts begrenzter Zeitressourcen, einer Überfülle des möglicherweise Relevanten 
und des breiten theoretischen und methodischen Angebots, das mittlerweile von den 
Anforderungen an den traditionellen Stubengelehrten bis hin zum Programmierer und La- 
borwissenschaftler reicht, dass also angesichts der strukturellen Überforderung des Litera- 
turwissenschaftlers das Fehlen >in gewissen Hinsichten: eher wahrscheinlich als unwahr- 
scheinlich ist, liegt nahe.” 


So bedarf es eines hohen disziplinären Gespürs, um beispielsweise einschätzen 
zu können, was man unbedingt ausführlich und genau lesen muss, worüber man 
getrost hinweglesen kann, an welchen Stellen im Forschungsprozess und in wel- 
chen Zusammenhängen fehlende Lektürekenntnisse oder Verweise (zugunsten 
anderer Normen) geduldet und nicht etwa negativ ausgelegt werden." Folglich 
gilt es festzuhalten, dass die Verwaltung »struktureller Überforderung: ange- 
sichts der hohen Anzahl an potentiellen Lektüren elementarer Bestandteil der li- 
teraturwissenschaftlichen Praxis ist und zur Normalität des prädigitalen und ge- 
genwartigen Arbeitsalltags gehört: Literaturwissenschaftler sind routiniert darin, 
überfordert zu sein. Sie sind in dieser Hinsicht »ausgezeichnet darauf vorbereitet 
[...], mit digitalen Datenbanken zu arbeiten« und große Textmengen zu erfor- 
schen, die kontrollierte und komplexe Entscheidungs- und Auswahlprozesse ein- 
fordern.” 

Daher können die eingangs exemplarisch zitierten Zahlen der digitalisierten 
Objekte nicht deswegen als bemerkenswert eingeschätzt werden, weil mit der Di- 
gitalisierung die schiere Menge des europäischen Kulturguts erstmals offensicht- 
lich sei oder Literaturwissenschaftler das erste Mal in ihrer Geschichte überfor- 
dert würden. Entscheidend ist vielmehr, dass die Digitalisierung Möglichkeiten 


15 Steffen Martus: »Mut des Fehlens. Über das literaturwissenschaftliche Ethos des Fehlerma- 
chens«, in: Ethos und Pathos der Geisteswissenschaften. Konfigurationen der wissenschaftlichen 
Persona seit 1750, hg. v. Ralf Klausnitzer, Carlos Spoerhase und Dirk Werle. Berlin, Boston 2015, 
S. 61-78, hier S. 66. 

16 Ebd., S. 65. 

17 Carlos Spoerhase: »Gegen Denken? Über die Praxis der Philologie«, in: Deutsche Vierteljahrs- 
schrift für Literaturwissenschaft und Geistesgeschichte 89 (2015), S. 637-646, hier S. 641. 
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eröffnet, Gegenstände in anderer Weise zu untersuchen und die Frage in den Mit- 
telpunkt rückt, wie man mit Forschungsgegenständen umgeht bzw. umgehen 
könnte. 

Die Losung computergestützter Objektumgangsweisen formuliert der Litera- 
turwissenschaftler Franco Moretti: »Reading »more« is always a good thing, but 
not the solution.«' Er schlägt stattdessen vor, die Möglichkeiten der Digitalisie- 
rung zu nutzen und die quantitative Behandlung der Untersuchungsgegenstände 
in das disziplinäre Praxisset zu integrieren. 

Im vorliegenden Aufsatz soll dieser quantifizierende Umgang in den Blick 
genommen werden. Dabei soll zunächst eine praxeologische Perspektive skiz- 
ziert werden, welche durch die derzeitigen digitalen Herausforderungen beson- 
dere Aktualität erhält, um darauf aufbauend das Quantifizieren als Set von Akti- 
vitäten vorzustellen, das sich mit der literaturwissenschaftlichen Praxis des 
Interpretierens verbinden kann. Anhand ausgewählter Interpretationen aus füh- 
renden Digital Humanities-Zeitschriften der letzten 30 Jahre sollen exemplarisch 
Aspekte des Zählens, Rechnens und Visualisierens beleuchtet werden.” 


18 Diese Möglichkeit wird bedauerlicherweise allzu oft nur mit vorschnellen Ersetzungsforde- 
rungen beantwortet. So wird etwa postuliert, dass man durch den Computer in Zukunft auf 
herkömmliche Formen des Lesens verzichten könne und dass Bibliotheken durch Open Access- 
Archive überflüssig seien etc. Anstelle dieser spektakulären Prognostik wäre es vielversprechen- 
der, so die Ausgangsthese dieses Aufsatzes, die mit der Digitalisierung einhergehende Aufmerk- 
samkeit für Praxiszusammenhänge zu nutzen, um zunächst die epistemischen Implikationen 
geistes- und literaturwissenschaftlicher Routinen herauszuarbeiten. 

19 Franco Moretti: »Conjectures on World Literature«, in: New Left Review 1 (2000), S. 54-68, 
hier S.55, https://newleftreview.org/II/1/franco-moretti-conjectures-on-world-literature (10. 
Oktober 2017). Vgl. ebenso Tanya Clement, Sara Steger, John Unsworth und Kirsten Uszkalo: 
How Not to Read a Million Books. Oktober 2008, http://people.virginia.edu/-jmu2m/hownot 
2read.html (10. Oktober 2017). 

20 Der vorliegende Aufsatz stammt in weiten Teilen aus der Arbeit an meiner Anfang 2018 ein- 
zureichenden Dissertation. In meiner Dissertation werde ich viele Aspekte, die ich hier nur an 
wenigen Beispielen exemplarisch vorführen kann, ausführlicher behandeln. Claudia Stockinger 
und Steffen Martus danke ich sehr herzlich für ihre produktive Kritik und ihre wertvollen Hin- 
weise — nicht nur bei diesem Aufsatz. 
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1 Praxeologische Wissenschaftsforschung 


In einem Interview im Jahr 2000 mit der Wochenzeitung DIE ZEIT fordert Bruno 
Latour die Wissenschaft dazu auf, die Forschungsbemühungen auf das »Gesche- 
hen« zu richten: »Wir müssen vor allem konzeptuell nachholen, was schon ge- 
schieht.«* Aus Latours Sicht verdient das, was »schon geschieht«, die wissen- 
schaftliche Aufmerksamkeit. Sein Diktum zielt auf die Erforschungsbedürftigkeit 
der voraussetzungsvollen alltäglichen, geläufigen und zumeist »stillen« Abläufe. 
Es ist dieser Blick auf selbstverständlich gewordene Routinen, der den französi- 
schen Soziologen dazu veranlasst, zu betonen: »Ich bin gar nicht so revolutionär, 
wie manche denken. «” 

In gleicher Weise könnte man das Programm einer praxeologischen Wissen- 
schaftsforschung der Literaturwissenschaft skizzieren:* Es geht nicht um die 


21 Bruno Latour: »Die Kühe haben das Wort [Interview]«, in: DIE ZEIT 49 (2000), S. 67-68, hier 
S. 67. 

22 Ebd. Vgl. ebenso die Formulierung bei Hans-Jörg Rheinberger, der aus »Ermangelung eines 
besseren Ausdrucks« seine Forschungen über die Herausbildung epistemischer Dinge im For- 
schungsprozess als »pragmatogon« bezeichnet. In: Hans-Jörg Rheinberger: Experimentalsys- 
teme und epistemische Dinge. Eine Geschichte der Proteinsynthese im Reagenzglas. Frankfurt a. M. 
2006, S. 22. 

23 Diese Perspektive installierten Steffen Martus und Carlos Spoerhase. Vgl. hierzu die zahlrei- 
chen Forschungsarbeiten von Steffen Martus (u.a. in Zusammenarbeit mit seinem Lehrstuhl- 
team) der letzten Jahre: Steffen Martus und Carlos Spoerhase: »Praxeologie der Literaturwissen- 
schaft«, in: Geschichte der Germanistik 35/36 (2009), S. 89-96; Steffen Martus, Michael Kämper- 
van den Boogaart und Carlos Spoerhase: »Entproblematisieren: Überlegungen zur Vermittelbar- 
keit von Forschungswissen, zur Vermittlung von »falschem« Wissen und zur Funktion literatur- 
wissenschaftlicher Terminologie«, in: Zeitschrift für Germanistik 21.1 (2011), S. 7-23; Steffen Mar- 
tus und Carlos Spoerhase: »Eine praxeologische Perspektive auf »Einführungen«, in: 
Literaturwissenschaftliche Lehrbuchkultur. Zu Geschichte und Gegenwart germanistischer Bil- 
dungsmedien, hg. v. Claudius Sittig und Jan Standke. Würzburg 2012, S. 25-39; Steffen Martus 
und Carlos Spoerhase: »Die Quellen der Praxis. Probleme einer historischen Praxeologie der Phi- 
lologie. Einleitung«, in: Zeitschrift für Germanistik 23.2 (2013), S. 221-225; Steffen Martus: »Epis- 
temische Dinge der Literaturwissenschaft?«, in: Theorie, Methoden und Praktiken des Interpre- 
tierens, hg. v. Andrea Albrecht, Lutz Danneberg, Olav Krämer und Carlos Spoerhase. Berlin u.a. 
2015, S. 23-51; Martus: „Der Mut des Fehlens«, S. 61-78; Steffen Martus: »Wandernde Praktiken 
‚after theory<?«, in: Internationales Archiv für Sozialgeschichte der deutschen Literatur 40 (2015), 
S. 177-195; Steffen Martus, Erika Thomalla und Daniel Zimmer: »Die Normalität der Krise. Be- 
obachtungen zur Geschichte der deutschen Literaturwissenschaft aus Fußnotenperspektive«, 
in: Deutsche Vierteljahrsschrift für Literaturwissenschaft und Geistesgeschichte 89 (2015), S. 510- 
520; Steffen Martus: »Literaturwissenschaftliche Kooperativität aus praxeologischer Perspektive 
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Ausarbeitung einer »revolutionären< oder geschlossenen Theoriearchitektur.” 
Vielmehr steht die Rekonstruktion des normalen literaturwissenschaftlichen All- 
tags im Zentrum. Eine praxeologische Perspektive, wie sie hier auf das Quantifi- 
zieren eingenommen werden soll, zeichnet sich dadurch aus, dass sie das breite 
Leistungsspektrum der Literaturwissenschaft zum Ausgangspunkt nimmt, den 
gängigen, durch die Digitalisierung verstärkten Krisendiagnosen” misstraut,” 


- am Beispiel der »Brüder Grimm«, in: Symphilologie. Formen der Kooperation in den Geisteswis- 
senschaften, hg. v. Vincent Hoppe, Marcel Lepper und Stefanie Stockhorst. Göttingen 2016, 
S. 47-72; Steffen Martus: »Zur normativen Modellierung und Moderation von epistemischen Si- 
tuationen in der Literaturwissenschaft aus praxeologischer Perspektive«, in: Scientia Po- 
etica 20.1 (2016), S. 220-233. 

24 Vgl. einführend Andreas Reckwitz: »Grundelemente einer Theorie sozialer Praktiken. Eine 
sozialtheoretische Perspektive«, in: Zeitschrift für Soziologie 32.4 (2003), S. 282-301; Ders.: 
»Praktiken und Diskurse. Eine sozialtheoretische und methodologische Relation«, in: Theoreti- 
sche Empirie. Zur Relevanz qualitativer Forschung, hg. v. Herbert Kalthoff, Stefan Hirschauer und 
Gesa Lindemann. Frankfurt a. M. 2008, S. 188-209; The Practice Turn in Contemporary Theory, 
hg. v. Theodore R. Schatzki, Karin Knorr-Cetina und Eike von Savigny. London 2001. 

25 Vgl. als aktuelles Beispiel: Martin Doerry: »Schiller war Komponist«, in: Der Spiegel 6 (2017), 
S. 104-109; Steffen Martus: »Der eierlegende Wollmilchgermanist wird dringend gesucht«, in: 
FAZ vom 8. Februar 2017, S.9; Heinz Drügh, Susanne Komfort-Hein und Albrecht Koschorke: 
»Wir Todgeweihten grüßen euch«, in: FAZ vom 9. Februar 2017, S.11; Klaus Kastberger: 
»Schluss mit dem Totentanz-Geraune«, in: DIE ZEIT vom 13. Februar 2017, http://www.zeit.de/ 
kultur/literatur/2017-02/germanistik-literatur-deutsche-sprache-krise/komplettansicht (10. Ok- 
tober 2017); Eva Geulen: »Für die Einzelsprachlichkeit der Literatur. Nebenbemerkungen zum 
jüngsten Streit um die Germanistik«, in: ZfL Blog vom 17. Februar 2017, http://www.zflprojek 
te.de/zfl-blog/2017/02/17/eva-geulen-fuer-die-einzelsprachlichkeit-der-literatur-nebenbemerk 
ung-zum-juengsten-streit-um-die-germanistik (9. Oktober 2017). Allein - dies sei hier nur neben- 
bei bemerkt - die hohe Stimulanzbereitschaft, schnelle Reaktionsgeschwindigkeit und enorme 
Kommunikationsdichte dieser Beiträge (vier Beiträge im Feuilleton unterschiedlicher Medien 
von sechs Literaturwissenschaftlerinnen und Literaturwissenschaftlern in neun Tagen) ist ein 
Argument gegen die von Doerry vorgebrachten Thesen zur Rückwärtsgewandtheit, Gegenwarts- 
ferne und Überflüssigkeit der Literaturwissenschaft. 

26 Vgl. Lorraine Daston: »Die unerschütterliche Praxis«, in: Auf der Suche nach der verlorenen 
Wahrheit. Zum Grundlagenstreit in der Geschichtswissenschaft, hg. v. Rainer Maria Kiesow und 
Dieter Simon. Frankfurt a. M., New York 2000, S. 13-25. Hier steht die Verwunderung darüber im 
Zentrum, warum eigentlich so intensiv von einer Krise der Geschichtswissenschaft gesprochen 
wird. Daston führt dazu drei Krisenberichte von führenden Historikern aus Großbritannien, 
Frankreich und England zusammen, um herauszufinden, was eigentlich genau in die Krise 
geraten ist und was eigentlich falsch läuft in der Geschichtswissenschaft, dass so einstimmig 
von einer Krise des Fachs gesprochen werden kann. »Worüber machen sie sich eigentlich solche 
Sorgen?« (S.14) Auch wenn jeder der drei Historiker auf wichtige Problemzusammenhänge 
hinweist, stellt Daston fest, dass es »eine tieferliegende Ebene des Konsens darüber [gibt], wie 
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dem »Entdeckungszusammenhang«” epistemischer Dinge besondere Aufmerk- 
samkeit schenkt, das Instruktionspotential programmatischer Vorgaben fiir den 
Forschungsprozess eher gering einschätzt,” der Alltäglichkeit (literatur-)wissen- 
schaftlicher Prozesse besonderes Interesse entgegenbringt sowie die Aussage- 
kraft »außergewöhnlich normaler«” Quellen unterstreicht. Sie richtet ihren Blick 
weniger auf die 


Spitzenergebnisse philologischer Forschung, sondern auch auf die Rekonstruktion der un- 
spektakulären und deshalb meist unbeobachtet gebliebenen philologischen »Unterseite 
dieser Ergebnisse, d. h. auf die etablierte philologische Praxis mit ihren stillschweigenden 
Konventionen und normalisierten und internalisierten Arbeitsablaufen.*° 


Die Aufgabe einer »praxisaffine[n] Erforschung der Wissenschaften«, so fassen 
es Steffen Martus und Carlos Spoerhase in einem Beitrag zusammen, sei 


demnach den »Mythos« einer »reinen« Wissenschaft zu destruieren, indem sie die Historizi- 
tät, Lokalität und Körpergebundenheit der Wissenschaft betone; die interne Heterogenität 
der Disziplinen rekonstruiere; die These eines radikalen »epistemologischen Bruchs« zwi- 
schen wissenschaftlicher Methode und alltäglicher Rationalität unterwandere; schließlich 
den Anspruch des Wissenschaftlers auf moralische Überlegenheit zuriickweise.** 


Im Vordergrund praxeologischer Perspektiven stehen also die bislang kaum the- 
matisierten komplexen Sozialisationsräume der Literaturwissenschaft, ihre etab- 
lierten Kommunikationspraktiken, Verhaltensroutinen und Handlungsweisen 
sowie die epistemologischen Leistungen und vielfältigen Normenhierarchien, 
die diesen Praktiken inhärent sind.” 


Geschichte zu betreiben ist, die von den angenommenen Krisen in der Diskussion ziemlich 
unberührt bleibt«: Es ist das »Fundament historiographischer Praxis« (S. 25). 

27 Rheinberger: Experimentalsysteme und epistemische Dinge, S. 27. 

28 Ebd., passim. 

29 Zur Herausforderung der Identifizierung des »passenden« Untersuchungsmaterials der Pra- 
xeologie, vgl. die Diskussion in Martus und Spoerhase: »Die Quellen der Praxis«. 

30 Ebd., S. 221. 

31 Ebd., S. 223f. 

32 Martus und Spoerhase: »Praxeologie der Literaturwissenschaft«, S. 96. 
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1.1 Die Affinität von Praxeologie und Digitalisierung 


Überträgt man die Überlegungen Latours auf die Diskussionen über den Einfluss 
der Digitalisierung auf die Literaturwissenschaft, tritt die Evidenz zukunftsbezo- 
gener und normativer Empfehlungen bezüglich dessen, was angesichts neuer 
technischer Möglichkeiten geschehen wird oder eigentlich geschehen sollte, zu- 
gunsten einer Perspektive auf jene Prozesse, die »schon geschehen, zurück. Eine 
praxeologische Wissenschaftsforschung zielt dezidiert nicht auf Vorhersagen 
über die »glorreiche« oder »verhangnisvolle< Zukunft der Digitalisierung in der Li- 
teraturwissenschaft. Stattdessen bietet sie die Chance, den epistemologischen 
Gehalt von Praktiken und Teilpraktiken literaturwissenschaftlichen Arbeitens zu 
erfassen. Indem die Praxeologie dafür sensibilisiert, was im »tatsächlichen« Voll- 
zug von literaturwissenschaftlichen Forschungspraktiken geschieht, trägt sie 
dazu bei, die Diskussionen über den Einfluss der Digitalisierung auf die Litera- 
turwissenschaft zu präzisieren.” 

Mit der Digitalisierung tritt das Potential einer praxeologischen Perspektive 
aufdie Literaturwissenschaft besonders deutlich hervor. Dafür gibt esim Wesent- 
lichen drei Gründe: Erstens besteht eine gewisse Affinität zwischen Digitalisie- 
rung und Praxeologie. Die Digitalisierung erleichtert die empirisch-quantitative 
Erforschung des literaturwissenschaftlichen Normalbetriebs.* So lässt sich auf 
einer breiten Materialgrundlage statistisch erheben, welche Themen wann in der 
Literaturwissenschaft besprochen wurden, welche theoretischen Konzepte im 
Zusammenhang mit welchen Themen rezipiert und weiterentwickelt werden, 
welche Texte den Kanon der Literaturwissenschaft ausmachen, ob man zwischen 
mehreren Kanones - einem Lehrkanon und einem Forschungskanon etwa - un- 
terscheiden müsste und mit welchen Disziplinen (zu welcher Zeit und in welcher 
Weise) die Literaturwissenschaft privilegiert Austauschbeziehungen pflegt.” 


33 Mit der Konzentration auf den »tatsächlichen« Vollzug ist nicht der Anspruch verbunden, 
dass Thesen per se »richtiger« oder »objektiver< seien, nur weil sie sich auf konkrete 
Handlungsvollzüge beziehen. Zugleich leistet die Praxeologie eine gewisse Empirisierung der 
Literaturwissenschaft. Wie jedoch diese empirischen Befunde zu bewerten sind, sollte nicht 
damit verwechselt werden, sie ersteinmal zu erheben. 

34 Erforscht werden kann zumindest jener Bereich des »Normalbetriebs<«, der in den unter- 
schiedlichen (schriftlich fixierten) Darstellungsformen der Literaturwissenschaft sedimentiert 
liegt. 

35 Vgl. etwa die quantitativen Analysen zur Fußnotendichte von Steffen Martus, Erika Tho- 
malla und Daniel Zimmer zur Beantwortung der Fragen, »ob die Germanistik sich in der Krise 
befinde; ob sich die Germanistik von ihren genuinen Aufgaben entfernt und gleichsam vapori- 
siert habe; ob sie eine neue Identität als Teil einer größeren Kulturwissenschaft gefunden habe; 
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Zweitens evoziert die Digitalisierung — nicht zuletzt durch vorschnelle Sub- 
stituierungsforderungen einzelner Teilpraktiken des Lesens, Schreibens und Ar- 
chivierens — eine Beschäftigung mit dem epistemologischen Gehalt dieser Prak- 
tiken. In diesem Zusammenhang zielen praxeologische Rekonstruktionen 
darauf, das Leistungsspektrum des literaturwissenschaftlichen Praxisgefüges so- 
wohl nach innen zu plausibilisieren als auch nach außen zu rechtfertigen, um 
einerseits den Katastrophismus der notorischen Krisendiskurse, die das Fach um- 
geben, zu entkräften und andererseits auf Problemstellen der disziplinären 
Selbstbeschreibungen aufmerksam zu machen.* 

Drittens legen es die Digital Humanities selbst nahe, die Aktivitäten des geis- 
tes- respektive des literaturwissenschaftlichen Arbeitsalltags zu erforschen.” Sie 
fertigen vielfach »Logbücher« an und beschreiben ihre Forschungsaktivitäten als 
»Doing Culture«.”® Vor diesem Hintergrund tritt das Desiderat praxeologischer 
Reflexion besonders deutlich hervor. Bevor die fehlende Bereitschaft oder das 
mangelnde Interesse an der Zusammenarbeit von Geisteswissenschaftlern und 
Informatikern als persönliche Schwächen einzelner Wissenschaftler ausgelegt 
wird, wäre es für den Diskussionszusammenhang produktiv, den Blick auf die 
disziplinären Gewohnheiten zu richten.” Mit dem Fokus auf Praktiken ließe sich 
dieser Problemzusammenhang in bestimmter Weise korrigieren: Was als subjek- 
tiver Skeptizismus oder individuelles Desinteresse besprochen wird, könnte so 
unter den Stichworten »Ethos«, »Enkulturation< beziehungsweise >inkorporierte 
Wissenskultur< treffender erfasst, entsprechend eingeordnet und kritisiert wer- 
den. 


ob sie inter- und intradisziplinärer geworden ist und an Profil verloren oder an Breite gewonnen 
hat«. In: Martus, Thomalla und Zimmer: »Die Normalität der Krise«, S. 510-520. 

36 Vgl. die erwähnten Arbeiten von Steffen Martus, Carlos Spoerhase, Erika Thomalla und Da- 
niel Zimmer. 

37 Für Definitionsversuche, ob die Digital Humanities als eigenständige Disziplin, Subdisziplin 
oder Forschungsfeld gelten können, vgl. Franco Moretti, Mark Algee-Hewitt, Sarah Allison, Ma- 
rissa Gemma, Ryan Heuser, Matthew Jockers, Dominique Pestre, Erik Steiner, Amir Tevel, Han- 
nah Walser, Michael Witmore und Irena Yamboliev: Literatur im Labor. Paderborn 2017, S. 12- 
14. 

38 Ebd., S. 10. Vgl. zudem beispielsweise Doing Digital Humanities. Practice, Training, Research, 
hg. v. Constance Crompton, Richard J. Lane und Ray Siemens. New York 2017. 

39 Christof Schöch: »Corneille, Moliére et les autres. Stilometrische Analysen zu Autorschaft 
und Gattungszugehörigkeit im französischen Theater der Klassik«, in: Literaturwissenschaft im 
digitalen Medienwandel, Beihefte zu PhiN7 (2014), http://web.fu-berlin.de/phin/beiheft7/b7 
t08.pdf (10. Oktober 2017). 
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Ausgehend von diesen Aspekten führt die durch kulturpessimistische Unter- 
gangsstimmung und euphorische Technophilie strukturierte (Feuilleton-)De- 
batte über das Verhältnis zwischen Literaturwissenschaft und Digital Humanities 
in die Irre.“ Die mitunter heftigen Grabenkämpfe sind weniger als konkurrie- 
rende Krisendiagnosen, sondern vielmehr als Symptome einer mangelnden 
Selbstverständigung innerhalb des Faches zu verstehen, welche die Praxeologie 
kompensieren kann. 


1.2 Untersuchungsmaterial für eine praxeologische 
Rekonstruktion des Quantifizierens 


Wie lassen sich nun aber konkrete Praxisformen beobachten? 


Wie [...] erfahren wir etwas über diesen von Erkenntnisroutinen und Wissenspraktiken ge- 
prägten akademischen Routinebetrieb? Ist die Normalität der Geisteswissenschaften nicht 
gleichsam zu unauffällig? An welchem Ort wäre die Praxisrationalität, die in der Wissen- 
schaftsforschung der Natur- und Lebenswissenschaften im Laboratorium ausfindig ge- 
macht wurde, in den historisch-philologischen Disziplinen zu finden?” 


Die zentrale Herausforderung praxeologischen Arbeitens besteht vorrangig da- 
rin, entsprechendes Beobachtungsmaterial zu identifizieren, zusammenstellen 
und so aufzubereiten, dass auf die ausgeführten Praktiken geschlossen werden 
kann.” Praxeologische Untersuchungen, die den Fokus nicht auf empirische 


40 Vgl. bspw. Doerry: »Schiller war Komponist«; Martus: »Der eierlegende Wollmilchgerma- 
nist«, S.9; Drügh, Komfort-Hein und Koschorke: »Wir Todgeweihten grüßen euch«, S. 11; Kast- 
berger: »Schluss mit dem Totentanz-Geraune«. 

41 Martus und Spoerhase: »Die Quellen der Praxis«, S. 223. 

42 Interessanterweise mangelt es in der Literaturwissenschaft nicht an Erfahrungsberichten, 
die aufeine hohe Homogenität bzw. weite Heterogenität der wissenschaftlichen Praxiserfahrung 
verweisen. So baut beispielsweise Jörg Schönert seinen Beitrag auf seinem Erfahrungswissen 
auf: »Mein Beitrag zu dieser Forschungsdiskussion will die (noch immer nicht unbestrittene) 
Notwendigkeit der Fachgeschichte im disziplinaren Aufgabenspektrum der Philologien für eine 
produktiv-kontinuierliche Wissenschaftsentwicklung betonen. Ich stütze mich dabei vor allem 
auf persönliche Erfahrungen von mehr als 50 Jahren in der germanistischen »academia« |...].« 
Siehe Jörg Schönert: »Durchsetzungsstrategien für Wissensansprüche in der literaturwissen- 
schaftlichen Praxis 1965-1985«, in: Scientia Poetica 20.1 (2016), S. 234-253, hier S. 234. Vgl. 
ebenso S. 237 und S. 243. 
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Analysen von Praktiken richten und daher auf Verfahrensweisen wie teilneh- 
mende Beobachtungen, Interviews oder Videoanalysen verzichten,“ beziehen 
sich zumeist auf bestimmte Texte, die unmittelbar Auskunft über vollzogene 
Praktiken geben, die Indizien für ausgeführte Praktiken liefern oder Rück- 
schlüsse auf weitere Praktiken ermöglichen.“ Zugleich gilt es den von Jutta 
Schickore beschriebenen »mismatch between what we do and what they state 
they did« in der wissenschaftlichen Praxis zu berücksichtigen.“ Nicht alle Prak- 
tiken müssen Einzug in die materielle Überlieferung erhalten haben oder müssen 
notwendigerweise fixiert worden sein.“ Darunter fallen etwa Bearbeitungsfor- 
men wie das »Notieren, Skizzieren und alle Arten von Praktiken, die es ermögli- 
chen, Ideen zu fixieren oder - gewissermaßen umgekehrt — Ideen überhaupt erst 
hervorzubringen«.*” Ebenso können spezifische Praktiken in der Verschriftli- 
chung der Interpretation zentraler oder höher gewichtet werden, als sie in actu 
waren. Hans-Jörg Rheinberger merkt in diesem Zusammenhang mit Blick auf 
seine Laboruntersuchungen an, dass 


Entdeckungen eigentlich nie auf die Weise gemacht worden sind, wie sie [...] dargestellt 
werden. Erhaltengebliebene Laborunterlagen fördern so manche Überraschung zutage und 
lehren uns immer wieder, dass die Ordnung der Entdeckung und die Ordnung der Darstel- 
lung in der Wissenschaft zwei verschiedene Dinge sind.“* 


Die vorliegende Studie begegnet dieser Herausforderung, indem sie Texte zu- 
gleich als Dokumentationen und als Sedimentationen spezifischer Praktiken 


43 Vgl. zu ethnografischen Ansätzen der Praxisforschung den Sammelband Methoden einer So- 
ziologie der Praxis, hg. v. Franka Schäfer, Anna Daniel und Frank Hillebrandt. Bielefeld 2015 
sowie Smiljana Antonijević: Amongst Digital Humanists. An Ethnographic Study of Digital 
Knowledge Production. Basingstoke, New York 2015. 

44 Vgl. zu den Herausforderungen bei der Identifizierung des geeigneten Beobachtungmateri- 
als fiir praxeologische Untersuchungen einführend Reckwitz: »Praktiken und Diskurse«, S. 197f. 
45 Jutta Schickore: »Doing Science, Writing Science«, in: Philosophy of Science 75.3 (2008), 
S. 323-343, hier S. 323. 

46 In diesem Zusammenhang wären etwa jene Praktiken zu identifizieren, die zu Beginn eines 
Forschungsprozesses als sehr wertvoll und wichtig eingestuft, im Laufe der Arbeit zugunsten 
anderer Praktiken zurückgefahren werden und auf der Ebene der Darstellung unter Umständen 
gar nicht mehr unmittelbar nachvollziehbar sind. 

47 Hans-Jörg Rheinberger: »Papierpraktiken im Labor. Ein Gespräch mit Karin Karauthausen 
und Omar W. Nasim«, in: Notieren, Skizzieren. Schreiben und Zeichnen als Verfahren des Ent- 
wurfs, hg. v. Karin Krauthausen und Omar W. Nasim. Zürich 2010, S. 139-158, hier S. 141. 

48 Hans-Jörg Rheinberger: »Man weiss nicht genau, was man nicht weiss. Über die Kunst, das 
Unbekannte zu erforschen«, in: NZZ vom 5. Mai 2007, https://www.nzz.ch/articleELG88-1.35 
4487 (10. Oktober 2017). 
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handhabt. Nur jene (Teil-)Praktiken, die sich anhand des Resultates der Interpre- 
tation, dem schriftlich fixierten Interpretationstext, identifizieren lassen, sind da- 
her Gegenstand dieser Arbeit.“ Diese Texte sind nicht bloß »Repräsentationen 
wissenschaftlichen Wissens«, sondern vor allem als Materialisierungen einer 
Praxis zu begreifen, »in und mit der dieses Wissen hergestellt wird«.°° 

Um für die vorliegende Untersuchung geeignetes Quellenmaterial zu bestim- 
men, wurden Zeitschriften als »kleine Archive« genutzt.” Sondiert wurden 
108 Aufsätze, die zwischen 1986 und 2017 in literaturwissenschaftlich affilierten 
Zeitschriften der Digital Humanities publiziert wurden.” Hierzu zählen die Digital 


49 Für weitere Forschungsarbeiten wäre es interessant zu untersuchen, wie sich beispielsweise 
das Erheben, Auszeichnen oder Programmieren aus dem Interpretationstext als Resultat der In- 
terpretation erschließen lassen könnte. Hinweise geben Francesca Frontini, Mohamed Amine 
Boukhaled und Jean Gabriel Ganascia: »Mining for Characterising Patterns in Literature Using 
Correspondence Analysis. An Experiment on French Novels«, in: Digital Humanities Quar- 
terly 11.2 (2017), http://digitalhumanities.org/dhq/vol/11/2/000295/000295.html (10. Oktober 
2017); Christof Schöch: »Topic Modeling Genre. An Exploration of French Classical and Enlight- 
enment Drama«, in: Digital Humanities Quarterly 11.2 (2017), http://www.digitalhumani 
ties.org/dhq/vol/11/2/000291/00 0291.htm] (10. Oktober 2017); Floris Bexa, Katie Atkinsona und 
Trevor Bench-Capona: »Arguments as a New Perspective on Character Motive in Stories«, in: Lit- 
erary and Linguistic Computing 29.4 (2014), S. 467-487. 

50 Kornelia Engert und Björn Krey: »Das lesende Schreiben und das schreibende Lesen. Zur 
epistemischen Arbeit an und mit wissenschaftlichen Texten«, in: Zeitschrift für Soziologie 42 
(2013), S. 366-384, hier S. 368. 

51 Gustav Frank, Madleen Podewski und Stefan Scherer: »Kultur — Zeit - Schrift. Literatur- und 
Kulturzeitschriften als »kleine Archive««, in: Internationales Archiv für Sozialgeschichte der deut- 
schen Literatur 34.2 (2010), S. 1-45. Die Zeitschriftenforschung erhält in den letzten Jahren er- 
höhte Aufmerksamkeit. Allerdings beziehen sich die aktuellen Forschungsarbeiten leider in der 
Regel auf literarische Zeitschriften. Vgl. den seit 2017 bestehenden Arbeitskreis »Kulturwissen- 
schaftliche Zeitschriftenforschung« des Zentrums für Literatur- und Kulturforschung Berlin (ZfL) 
und des Kulturwissenschaftlichen Instituts Essen (KWI). 

52 1986 wurde die Zeitschrift Literary & Linguistic Computing, die seit 2015 Digital Scholarship in 
the Humanities heißt, gegründet und kann - neben der Zeitschrift Computers and the Humanities 
- als erste Zeitschrift auf diesem Feld begriffen werden. Die Geschichte der Digital Humanities 
bzw. Humanities Computing, der Computerphilologie beginnt selbstverständlich schon viel frü- 
her. Eine interessante Materialquelle, vor allem für den deutschsprachigen Raum, stellen hierbei 
die Protokolle des »Kolloquiums über die Anwendung der EDV in den Geisteswissenschaften an 
der Universität Tübingen ab 1973 dar. Siehe: http://www.tustep.uni-tuebingen.de/kollog.html 
(10. Oktober 2017). Vgl. für eine historische Perspektive Willard McCarty: »Getting there from 
here. Remembering the Future of Digital Humanities: Roberto Busa Award Lecture 2013«, in: Lit- 
erary and Linguistic Computing 29.3 (2014), S. 283-306; Susan Hockney: »The History of Human- 
ities Computing«, in: A Companion to Digital Humanities, hg. v. Susan Schreibman, Ray Siemens 
und John Unsworth. Oxford 2004; Julianne Nyhan: Computation and the Humanities. Towards a 
history of Digital Humanities. Cham 2016. 
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Humanities Quarterly, Journal of Digital Humanities, das Jahrbuch fiir Computer- 
philologie und die Zeitschrift Literary & Linguistic Computing bzw. Digital Scholar- 
ship in the Humanities, die als prominenteste und (zu bestimmten Zeiten) fiih- 
rende” Zeitschriften der Digital Humanities eingeordnet werden können.” Von 
diesen 108 Aufsätzen gehen 78 Beiträge quantitativ vor, d. h. es wird gezählt, ge- 
rechnet, gemessen und/oder visualisiert.” Die Auswahl orientierte sich dabei zu- 
nächst am Titel, dann am Abstract und bei Zuordnungsschwierigkeiten am Text 
selbst. Der Kriterienkatalog, der die Zuordnung der Aufsätze strukturiert, umfasst 
dabei folgende Kriterien: Aufgenommen wurden nur jene Aufsätze, die sich mit 
(im engen Sinn) literarischen Texten befassen,” sich auf nordatlantische Litera- 
tur beziehen und ein interpretatorisches Erkenntnisinteresse verfolgen.” Nicht 
berücksichtigt wurden dagegen mediävistische, editionswissenschaftliche, lin- 
guistische, didaktische und literaturtheoretische Beiträge sowie Positions-, Er- 
fahrungs-, Programm- und Projektberichte und Anwendungserläuterungen.°® 


2 Exkurs: Quantifizierungen in der Geschichte 
der Literaturwissenschaft 


Zwar können quantitative bzw. »zählende, messende, mathematische, statisti- 
sche und computergestützte Verfahren« auf eine prädigitale Tradition in den 


53 Diese Zeitschriften sind entweder mit computerphilologischem Schwerpunkt innerhalb der 
deutschen Literaturwissenschaft situiert, liegen in Angrenzung an benachbarte Fachbereiche 
oder lassen sich dem disziplinären Verbund der Digital Humanities zuordnen. 

54 Ausgenommen wurden ferner alle Beihefte oder Sonderausgaben. 

55 Die restlichen Beiträge interpretieren ohne computergestützte Textanalysemethoden litera- 
rische Gegenstände wie beispielsweise digitale und digitalisierte Literatur. 

56 Ausgeklammert wurden auch Filme, Computerspiele, Hörbücher, Graphic Novels oder Co- 
mics. 

57 Vgl. zum Begriff des Interpretierens und den aktuellen Forschungstendenzen Jan Borkowski, 
Stefan Descher, Felicitas Ferder und Philipp D. Heine: »Probleme der Interpretation von Litera- 
tur«, in: Literatur interpretieren. Interdisziplinäre Beiträge zur Theorie und Praxis, hg. v. dens. 
Münster 2015, S. 11-70. 

58 Mit dieser Auswahl soll selbstverständlich nicht behauptet werden, dass in anderen Texten 
nicht interpretiert würde. Vielmehr sollen die Einschränkungen dazu dienen, ein handhabbares 
Korpus zu generieren, welches nicht bestimmte Autoren, eine Zeitschrift oder ein Jahr privile- 
giert, sondern einen gewissen repräsentativen Geltungsanspruch für die Quantifizierungs- und 
Interpretationspraxis stellen kann. 
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Geisteswissenschaften zurückblicken, doch haben sie - wenn überhaupt - bis- 
lang nur in wenigen Teilbereichen der Literaturwissenschaft Anschluss gefun- 
den.” Die historische Randständigkeit bzw. den Mangel an disziplinärem Ver- 
trauen in quantitative Operationen führt der Literaturwissenschaftler Toni 
Bernhart auf die wechselseitige Distanzierung von Literaturwissenschaft und 
Linguistik seit den 1960er Jahren und den damit in Zusammenhang stehenden 
programmatischen und methodischen Orientierungswechseln zurück. Außer- 
dem seien quantitative Verfahren mit Blick »auf relevante Fragestellungen des 
Fachs« nur unzureichend gepflegt und fortgeführt worden, wodurch die mit 
quantitativen Bearbeitungsweisen verbundenen Theoriediskurse als uninteres- 
sant oder unpassend wahrgenommen und häufig abgelehnt oder ignoriert wor- 
den seien.‘ Ebenso kritisiert Bernhart die fehlenden Anschlussbemühungen der 
Textstatistiker der sechziger und siebziger Jahre, die sich ausschließlich auf eine 
»syntaktische Textästhetik«° konzentriert hätten, ohne Verbindungen zur Sem- 
antik herzustellen.” Folglich seien »quantitative Verfahren pauschal als leis- 
tungsschwach abgelehnt« und theorie-, rezeptions- und wirkungsgeschichtlich 
kaum reflektiert worden.” 

Diese Beobachtungen lassen sich mit Bruno Latours und Vincent Lépinays 
Thesen zur Quantifizierung untermauern. Die beiden Sozialwissenschaftler lie- 
fern mit ihrem - in den Digital Humanities auffallend häufig zitierten - Essay 
über die Ökonomie nicht nur eine Einführung in die Arbeiten des Soziologen Gab- 
riel Tarde. Sie deuten vielmehr auf die Notwendigkeit und Produktivität einer al- 
ternativen Beschreibung quantifizierender Forschungsprozesse hin.™ 


59 Toni Bernhart: »Quantitative Literaturwissenschaft am Beispiel der Farbsemantik«, in: Lite- 
ratur und Kognition. Bestandsaufnahmen und Perspektiven eines Arbeitsfeldes, hg. v. Martin Hu- 
ber und Simone Winko. Paderborn 2009, S. 217-234, v.a. S. 217-220. 

60 Ebd., S. 219. 

61 Max Bense: Theorie der Texte. Eine Einführung in neuere Auffassungen und Methoden. Köln, 
Berlin 1962, S. 38. Zitiert nach Bernhart: »Quantitative Literaturwissenschaft«, S. 220. 

62 Vgl. Bernhart: »Quantitative Literaturwissenschaft«, S. 220. 

63 Ebd., S. 219. Diesem Desiderat widmet sich Toni Bernhart nun in dem DFG-geförderten For- 
schungsprojekt Quantitative Literaturwissenschaft am Institut für Literaturwissenschaft und am 
Stuttgart Research Centre for Text Studies der Universität Stuttgart. 

64 Bruno Latour und Vincent Lépinay: Die Ökonomie als Wissenschaft der leidenschaftlichen In- 
teressen. Berlin 2010. Diskutiert und zitiert wurde dieser Essay beispielsweise bei David M. Berry: 
»Die Computerwende - Gedanken zu den Digital Humanities«, in: Big Data. Analysen zum digi- 
talen Wandel von Wissen, Macht und Ökonomie, hg. v. Ramön Reichert. Bielefeld 2014, S. 47-64, 
hier S. 56ff.; Danah Boyd und Kate Crawford: »Big Data als kulturelles, technologisches und wis- 
senschaftliches Phänomen. Sechs Provokationen«, in: Geiselberger und Moorstedt: Big Data, 
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Gabriel Tarde, den sie als »Vorfahre« der science studies und als den eigent- 
lichen Begriinder der insbesondere von Latour ausgearbeiteten Akteur-Netz- 
werk-Theorie betrachten, wiirdigen die Autoren darin, dass er spezifische »epis- 
temologische Irrtümer« identifiziert habe, die häufig fälschlicherweise mit 
Quantifizierungsvorhaben einhergingen.“ Diese >Irrtiimer< liegen darin begrün- 
det, dass mit dem Quantifizieren explizite wie implizite normative Erwartungs- 
haltungen verbunden sind, die quantitatives Arbeiten und qualitatives Arbeiten 
als Gegensatz betrachten. Das Quantifizieren gilt häufig als objektiveres, unper- 
sönlicheres, gültigeres, überprüfbareres und wissenschaftlicheres Vorgehen, das 
vor subjektiven — und damit persönlichen, ungültigen, unüberprüfbaren und un- 
wissenschaftlichen - Deutungen schütze.“ Quantitatives Arbeiten wird unter ei- 
nem solchem Blickwinkel durch die binären Begriffspaare empirisch versus the- 
oretisch, analytisch versus interpretativ, makro versus mikro sowie objektiv 
versus (inter-)subjektiv strukturiert. Das »Vertrauen in Zahlen« besage,” dass, je 
mehr man quantifiziere, »die Leidenschaften zur Vernunft überginge« und das 
irrationale Vor-Urteil zur rationalen Einschätzung veredelt wiirde.® 

Für Gabriel Tarde dagegen, das machen Bruno Latour und Vincent Lépinay 
deutlich, liegen Quantifizierungen nicht außerhalb der subjektiven Einschät- 
zung, sondern »innerhalb«: Tarde ginge es nicht lediglich darum, zu beklagen, 
dass quantitative Arbeiten jene »moralische, affektive, ästhetische und soziale 
Dimension« unterschlugen.” Die Stoßrichtung seiner Schrift zielt vielmehr da- 
rauf, quantitative Vorgehensweisen nicht in Oppositionen zu den oben genann- 
ten Attributen qualitativen Arbeitens vorzustellen. Seine Reflexionen legen den 


S. 187-218, hier S. 195ff. sowie Gerhard Lauer: »Die digitale Vermessung der Kultur. Geisteswis- 
senschaften als Digital Humanities«, in: Geiselberger und Moorstedt: Big Data, S. 99-116, hier 
S. 108. 

65 Bruno Latour: »Gabriel Tarde und das Ende des Sozialen«, in: Soziologie der Nachahmung 
und des Begehrens. Materialien zu Gabriel Tarde, hg. v. Christian Borch und Urs Stäheli. Frank- 
furt a. M. 2009, S. 39-61, hier S. 39. Vgl. die Bemerkungen in Latour und Lépinay: Die Ökonomie 
als Wissenschaft der leidenschaftlichen Interessen, S. 17 [Fußnote 3] sowie S. 23. 

66 Gegenbeispiele liefert bspw. Lorraine Daston: Wunder, Beweise und Tatsachen. Zur Ge- 
schichte der Rationalität. Frankfurt a. M. 2001, S. 161ff. [Kapitel: Quantifizierungen]. Vgl. ebenso 
die Studie zur Objektivität: Lorraine Daston und Peter Galison: Objektivität. Frankfurt a. M. 2007. 
67 Vgl. TheodoreM. Porter: Trust in Numbers. The Pursuit of Objectivity an Science and Public 
Life. Princeton 1995; sowie Bettina Heintz: »Zahlen, Wissen, Objektivität. Wissenschaftssoziolo- 
gische Perspektiven«, in: Zahlenwerk. Kalkulation, Organisation und Gesellschaft, hg. v. Andrea 
Mennicken und Hendrik Vollmer. Wiesbaden 2007, S. 65-85. 

68 Latour und Lépinay: Die Okonomie als Wissenschaft der leidenschaftlichen Interessen, S. 36. 
69 Ebd., S. 21. [Hervor. i. O.] 
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Blick frei auf die konkrete Praxis des Quantifizierens, die sich weder in dem di- 
chotomen Begriffskorsett qualitativ/quantitativ noch in deren synthetischen 
Uberwindungsversuchen einhegen lässt.” 

Es sind vor allem letztere, die sich in den Digital Humanities nahestehenden 
Teilbereichen der Literaturwissenschaft finden lassen. Dort wird oftmals dafür 
geworben, »verstehendes Lesen mit den digitalen Analysen des Computers in 
konkreten Analysen synergetisch« zu kombinieren.” Konzepte wie das Scalable 
Reading, die »Projekte bezeichnen, die qualitativ-hermeneutische und quantita- 
tiv-statistische Methoden verbinden wollen«, reflektieren dieses Ziel.” So ein- 
leuchtend und in vielerlei Hinsicht produktiv der Vermittlungsversuch zwischen 
quantitativen und qualitativen Arbeiten zu >quali-quantitativen« Vorgehenswei- 
sen auch sein mag, aus einer praxeologischen Perspektive ist der Blick auf das 
Quantifizieren selbst zu richten, bevor man Synthetisierungsversuche anbietet 
oder sich auf zu rigide Dualismen konzentriert, deren vermeintliche Lösungen 
demselben »Megaproblem« verhaftet bleiben.” 


3 Der Aktivitätsbereich des Quantifizierens 


Vor dem Hintergrund einer praxeologischen Perspektive wird das Quantifizieren 
im vorliegenden Aufsatz als loses Bündel von Aktivitäten beispielsweise des Zäh- 
lens, Rechnens oder des Visualisierens gefasst.” Bei ihnen handelt es sich um 
spezifische Umgangsweisen, die in einer gewissen Distanz im (u. U. computerge- 
stützten) Zugriff eine große Menge an Texten (oder Daten) verarbeiten und zu- 
meist darauf zielen, Ähnlichkeiten, Häufigkeiten oder Regelmäßigkeiten zu iden- 
tifizieren. Innerhalb des Aktivitätsbereichs des Quantifizierens können demnach 


70 Vgl. Thomas Weitin, Thomas Gilli und Nico Kunkel: »Auslegen und Ausrechnen. Zum Ver- 
hältnis hermeneutischer und quantitativer Verfahren in den Literaturwissenschaften«, in: Zeit- 
schrift für Literaturwissenschaft und Linguistik 181 (2016), S. 103-115, hier S. 112. 

71 Thomas Weitin: »Thinking slowly. Literatur lesen unter dem Eindruck von Big Data«, in: Kon- 
stanz LitLingLab. Pamphlet 1 (2015), S. 1-18, S. 8 und 9, http://www.digitalhumanitiescenter.de 
/kl3/ (10. Oktober 2017). 

72 Ebd., S. 2. 

73 Weitin, Gilli und Kunkel: »Auslegen und Ausrechnen«, S. 112. 

74 Damit soll natürlich nicht gesagt werden, dass Zählen, Rechnen und Visualisieren die einzi- 
gen Praktiken sind, die zum Quantifizieren gehören. Es sind lediglich die drei Praktiken, die im 
Folgenden konkreter untersucht werden. 
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unterschiedliche responsive Teilpraktiken variabel miteinander kombiniert wer- 
den.” Auf diese Variabilität des Quantifizierens verweist auch Lorraine Daston, 
wenn sie betont, dass 


abstrakte mathematische Modelle [...] an Messungen oder iiberhaupt an Beobachtungen ge- 
bunden sein können oder auch nicht [...]; Messungen [...] mit einem mathematischen Mo- 
dell der untersuchten Phänomene verknüpft sein können oder auch nicht [...].”° 


Die Beobachtungen, dass sich in manchen Interpretationen unterschiedliche 
(Teil-)Praktiken miteinander verbinden - »oder auch nicht«, deuten auf die mul- 
tiplen Verkettungsoptionen von Praktiken hin. Jede dieser einzelnen Teilprakti- 
ken könnte so oder auch anders zusammengeschlossen werden und hat für sich 
genommen nur ein geringes Erkenntnispotential. Sie besitzen jeweils, wie Rahel 
Jaeggi hervorhebt, eine »innere oder qualitative Beziehung« zueinander, indem 
sie weitere Anschlusspraktiken nahelegen oder ausschließen.” Praktiken haben 
Voraussetzungen in anderen Praktiken, werden im Hinblick auf weitere Prakti- 
ken ausgeführt und sind durch interne Normenhierarchien miteinander gekop- 
pelt.” Es kann »hundertprozentig genau« gezählt und »anschaulich« visualisiert 
werden; es kann »unparteilich« erhoben und geschätzt werden; es kann »unbe- 
stechlich« gemessen, »präzise« gerechnet und »mittelbar« visualisiert werden 
etc.” Durch diese normative Verbindung sind Praktiken jedoch nicht ohne weite- 
res miteinander kombinierbar. Erst in ihrer gemeinsamen, aufeinander 
abgestimmten Verkettung können sie Stabilisierungseffekte erzeugen, die For- 
schungsprozesse strukturieren, die Lancierung »neuer« Gegenstände ermögli- 
chen und zu einem Quantifizierungsensemble innerhalb einer Interpretations- 
praxis avancieren. 

In der Literaturwissenschaft gilt das Interpretieren gemeinhin als eine, wenn 
nicht sogar die zentrale Praxisform. Als »praktisches Handwerk«® ist es das 


75 Rahel Jaeggi: Kritik von Lebensfomen. Frankfurt a. M. 2014, S. 105. 

76 Vgl. auch Dastons weiteren Ausführungen zur moralischen Ökonomie der Quantifizierung 
bzw. den »Ethos der Exaktheit« in: Daston: Wunder, Beweise und Tatsachen. Zur Geschichte der 
Rationalität, S. 163ff. 

77 Jaeggi: Kritik von Lebensfomen, S. 109. 

78 Vgl. Friederike Schruhl: »Literaturwissenschaftliche Wissensproduktion unter dem Einfluss 
der Digitalisierung«, in: Zeitschrift für Germanistik NF XXVII (2017), H. 2, S. 239-260, hier S. 245f. 
79 Vgl. Daston: Wunder, Beweise und Tatsachen, S. 164-166. 

80 Uwe Japp: »Hermeneutik«, in: Literaturwissenschaft. Ein Grundkurs, hg. v. Helmut Brackert 
und Jörn Stückrath. Reinbek 1992, S. 581-593, hier S. 591. 
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»Kerngeschäft«®' im »Zentrum [...] der Literaturwissenschaft«®. Teilbereiche der 
Digital Humanities, die sich der Literaturwissenschaft zuordnen lassen, schlie- 
ßen in der Regel an diese interpretative Orientierung an. Wenngleich die Digital 
Humanities im Allgemeinen nicht fiir sich beanspruchen, eine »vollständige« In- 
terpretation zu leisten und ihre Forschungsaktivitäten nicht mit dem Praxisset 
des literaturwissenschaftlichen Interpretierens identisch sind, verfassen sie ihre 
Arbeiten zumeist in Hinblick auf kiinftige interpretative Operationen und ordnen 
sich damit innerhalb eines Interpretationsprozesses ein.” 


4 Zählen, Rechnen und Visualisieren 


Von den ausgewählten 108 Beiträgen in literaturwissenschaftlich nahestehenden 
Zeitschriften der Digital Humanities zwischen 1986 und 2017 wird in 78 quantifi- 
ziert. In 54 Beiträgen werden erhobene Daten in Prozentangaben oder Formeln 
dargestellt. Von diesen 54 Beiträgen finden sich bei 42 Beiträgen zusätzlich Visu- 
alisierungen, welche die erhobenen Daten in Diagramme oder Graphen umwan- 
deln. Zusätzlich gibt es in 24 weiteren Beiträgen Visualisierungen, die keine 
Zähl-, Erhebungs- oder Rechnungsvorgänge in ihren Fließtext direkt aufnehmen. 
Alle Beiträge greifen auf vorherige Zählvorgänge zurück, die jedoch in den meis- 
ten Fällen nur durch Verweise in den Fußnoten auf vorherige Stufen im For- 
schungsprozess erwähnt werden. 


81 Claudia Liebrand und Rainer J. Kaus: »Interpretieren nach den turns. Zur Einleitung«, in: 
Interpretieren nach den »turns«. Literaturtheoretische Revisionen, hg. v. dens. Bielefeld 2014, S. 7- 
14, hier S. 7. 

82 Hartmut Böhme: »Einleitung. Konzepte und Exempel der Interpretation literarischer und 
philosophischer Texte«, in: Vom Umgang mit Literatur und Literaturgeschichte. Positionen und 
Perspektiven nach der »Theoriedebatte«, hg. v. Lutz Danneberg, Friedrich Vollhardt, Böhme Hart- 
mut und Schönert Jörg. Stuttgart 1992, S. 231-238, hier S. 231. 

83 Wann eine Interpretation als >fertig< oder »vollstandig< gelten kann, ist eine äußerst kompli- 
zierte Frage. Interessante Beobachtungen finden sich hierzu bei Ralf Klausnitzer: »Wie lernt 
man, was geht? Konstitutive und regulative Regeln in Interpretationsgemeinschaften«, in: Inter- 
pretationskulturen. Literaturdidaktik und Literaturwissenschaft im Dialog über Theorie und Praxis 
des Interpretierens, hg. v. Marie Lessing-Sattari, Maike Löhden, Almuth Meissner und Dorothee 
Wieser. Frankfurt a. M. 2015, S. 151-181. 
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Ted Underwood und Jordan Sellers bearbeiten 4 275 Texte, Lisa Rhody unter- 
sucht 4 500 Gedichte und Christof Schöch analysiert 391 Dramen.™ Die »Diskreti- 
sierung« von Textkonvoluten in Daten wird in der Regel nicht im Interpretations- 
text ausführlich dokumentiert, allenfalls in einer Fußnote oder einer Anmerkung 
erwähnt. Allerdings stehen diese Zahlen für aufwändige Erhebungs-, Program- 
mierungs- und Auswertungspraktiken, die mit Quantifizierungen einhergehen. 
Die statistische Beschreibung von Datensammlungen, die Häufigkeit einzelner 
Textelemente im Verhältnis zu großen Textkorpora, die Gruppenbildung auf der 
Grundlage von Ähnlichkeitsfaktoren, die Klassifikation von Texten und Autoren 
oder die Darstellung semantischer Felder erfordert »reine« Daten. Hinter den oben 
zitierten Zahlen liegen damit Bearbeitungsprozesse, die von dem Erheben, Aus- 
wählen, Sammeln, Zusammenführen, Säubern bis hin zum Verfügbarmachen der 
Daten reichen und die Beteiligung unterschiedlicher Akteure einfordern.° Daran 
werden nicht zuletzt die Verflechtungen und strukturellen Koppelungen der Li- 
teraturwissenschaft mit anderen Organisationen wie Archiven, Bildungsinstitu- 
tionen und Bibliotheken sichtbar.” 

Auch wenn die Größenordnungen der obengenannten Beispielprojekte eher 
mittelgroßen Korpora entsprechen und nicht large scale- oder big data-Dimensi- 
onen erreichen und damit prinzipiell noch lesbar sind, finden sich in den Beiträ- 
gen von Ted Underwood, Jordan Sellers, Lisa Rhody und Christof Schöch keine 
konkreten Quellenzitate. Sie operieren mithilfe von Programmen.* Indes handelt 
es sich dabei keineswegs um eine ausschließlich computergestützte Registration 


84 Ted Underwood und Jordan Sellers: »The Emergence of Literary Diction«, in: Journal of Dig- 
ital Humanities 1.2 (2012), http://journalofdigitalhumanities.org/1-2/the-emergence-of-literary- 
diction-by-ted-underwood-and-jordan-sellers/ (10. Oktober 2017); Lisa M. Rhody: »Topic Model- 
ing and Figurative Language«, in: Journal of Digital Humanities 2.1 (2012), http://journalofdig 
italhumanities.org/2-1/topic-modeling-and-figurative-language-by-lisa-m-rhody/ (10. Oktober 
2017); Schöch: »Topic Modeling Genre«. 

85 Bettina Heintz und Jörg Huber: »Der verführerische Blick. Formen und Folgen wissenschaft- 
licher Visualisierungsstrategien«, in: Mit dem Auge denken. Strategien der Sichtbarmachung in 
wissenschaftlichen und virtuellen Welten, hg. v. dens. Wien, New York 2001, S. 9-40, hier S. 16. 
Vgl. etwa den letzten Hinweis in Underwood und Sellers: »The Emergence of Literary Diction«. 
86 Vgl. die Zusammenfassung solcher Arbeitschritte bei Christof Schöch: » Aufbau von Daten- 
sammlungen«, in: Jannidis, Kohle und Rehbein (Hg.): Digital Humanities, S. 223-232. 

87 Niklas Luhmann: Die Gesellschaft der Gesellschaft. Frankfurt a. M. 1997, S. 92ff. Diese Koope- 
rationen sind nicht als »bloße« Organisationen, sondern können vielmehr spezifische Verhal- 
tensweisen, Umgangsformen und Routinen ins Spiel bringen. 

88 Vgl. etwa die ausführliche Dokumentation in Rhodys Anhang: »Topic Model Data for Topic 
Modeling and Figurative Language«, http://journalofdigitalhumanities.org/2-1/topic-model- 
data-for-topic-modeling-and-figurative-language-by-lisa-m-rhody/ (10. Oktober 2017). 
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von Haufigkeiten oder Mustern, sondern um eine Operationalisierung literatur- 
wissenschaftlicher Erkenntnisinteressen, die Forschungswissen sowie Text- 
kenntnis voraussetzt. So »zeigen gerade diejenigen Arbeiten, die bestimmten 
quantitativen Verfahren zur literaturwissenschaftlichen Korpusanalyse zum 
Durchbruch verholfen haben, dass die AutorInnen ihr Korpus jeweils sehr gut 
kannten«.® In der Regel werden Korpora untersucht, über welche der jeweilige 
Literaturwissenschaftler viel weiß; »sei es durch die Kenntnis bestimmter Texte, 
durch historisches Kontextwissen oder durch systematische Kenntnisse über Gat- 
tungen, Formen, Intertextualität usw«.” Thomas Weitin verweist auf For- 
schungsbibliografien, um zu zeigen, dass die angemessene Integration und Ver- 
wendung quantitativer Verfahren einer intensiven Forschungserfahrung bedarf: 


Das gilt zum Beispiel für John Burrows, der das nach ihm benannte Delta-Verfahren zur 
Bestimmung der stilometrischen Distanz zwischen Texten an einem Korpus mit 25 engli- 
schen Autoren des 17. Jahrhunderts erprobte, oder für Matthew Jockers, der sein Korpus 
irisch-amerikanischer Literatur dank überragender Kenntnisse in dieser speziellen Litera- 
turgeschichte zum idealen Studienobjekt von Macroanalysis machen konnte.” 


Denn ohne die 


genaue Lektüre, ohne literaturgeschichtliches Quellenstudium, ohne kulturwissenschaftli- 
che Kontextkompetenz können Forschungsfragen nicht abstrahiert und konzeptionalisiert 
werden, sodass sie sich für den Einsatz digitaler Tools operationalisieren lassen.?? 


Der »Abstand zum Text« wird damit durch die ‚Nähe zum Gegenstand« redu- 
ziert.” 

Zugleich reicht Forschungswissen nicht aus, um das Zählen von Häufigkei- 
ten und Regelmäßigkeiten als epistemische Teilpraktik zu plausibilisieren. Man 
muss nicht nur wissen, was sich erheben lassen kann, wo man mit Häufigkeiten 
rechnen sollte oder wo bisher Zusammenhänge in der Forschung vermutet wur- 


89 Thomas Weitin: »Scalable Reading«, in: Zeitschrift für Literaturwissenschaft und Linguis- 
tik 47 (2017), S. 1-6, hier S. 2. 

90 Thomas Weitin und Katharina Herget: »Falkentopics. Über einige Probleme beim Topic Mo- 
deling literarischer Texte«, in: Zeitschrift für Literaturwissenschaft und Linguistik 47 (2017), S. 29- 
48. 

91 Ebd. Vgl. ebenso die Hinweise bei Franco Moretti: Distant Reading. Konstanz 2016, S. 50. 

92 Thomas Weitin: »Digitale Literaturwissenschaft«, in: Deutsche Vierteljahrsschrift für Litera- 
turwissenschaft und Geistesgeschichte 89.4 (2015), Sonderheft: Zur Lage der Literaturwissen- 
schaft. Aktuelle Bestandsaufnahmen und Perspektiven, S. 651-656, hier S. 654. 

93 Moretti: Distant Reading, S. 49. 
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den. Zugleich muss man auch einschätzen können, in welche (v. a. terminologi- 
sierten) Arbeitseinheiten der Literaturwissenschaft (z. B. Narratologie, Rezepti- 
onsforschung, Dramenanalyse) sich das Quantifizieren relativ problemlos einfü- 
gen kann - und ab wann sich eine »originelle< Zählung oder Rechnung in einen 
unpassenden Einwurf oder in ein riskantes Manöver verkehrt, das unter Umstän- 
den bis hin zu einer temporären Exklusion aus der scientific community führen 
kann und den »fröhliche[n] Innovator von heute, zum angestrengten Defensor 
seiner akkumulierten Wissensbestände von morgen« werden lässt.” 

Aber wer hat wann gute Erfolgschancen, gezählte Regelmäßigkeiten und er- 
rechnete Muster in etablierte (Interpretations-)Zusammenhänge einzuführen? 
Welche Qualifikationen müssen erworben und welche Gratifikationen erhalten 
worden sein, damit dieses »Neue« nicht als Ausdruck eines »leichtgläubigen No- 
vizen: oder »marginalen Irrläufers der Disziplin: wahrgenommen, sondern als 
»passenders, »innovativer< Vorschlag eines »geschulten Akademikers« für die dis- 
ziplinäre Gemeinschaft gedeutet wird?” Die Integration ungewohnter Umgangs- 
formen vollzieht sich erst in einem langwierigen Anbahnungsprozess, bei der es 
einer aufwändigen Einstimmung der Kollegen auf etwas »Neues«, einer durch in- 
tensive Teilnahme erworbenen Kenntnis und Vertrautheit mit einer Disziplin be- 
darf und die Berücksichtigung und voraussetzungsvolle Abstimmung einer Viel- 
zahl an kulturellen, lokalen, sozialen und theoretischen Faktoren benötigt. 

Auch wenn das Zählen und Rechnen eine Geschichte in der Literaturwissen- 
schaft besitzt, reichen Pamphlete, Positionspapiere, Programmschriften oder 
Historisierungen in der Regel nicht aus, um eine Einbettung in das Praxisgefüge 
einer Disziplin zu ermöglichen bzw. langfristig zu sichern.” Das liegt auch daran, 
dass das, was routinisiert, gewohnt und nahezu selbstverständlich abläuft, in der 


94 Lutz Danneberg: »Ich habe nichts Neues zu sagen ...«, in: Jahrbuch der deutschen 
Schillergesellschaft 39 (1995), S. 434-438, hier S. 437. 

95 Der Frage nach dem Status des Neuen in der Literaturwissenschaft widme ich mich 
ausführlicher in meiner Dissertation. Vgl. die Beobachtungen in Danneberg: »Ich habe nichts 
Neues zu sagen ...«, S. 434-438; Wilhelm Voßkamp: »Das Neue als Verheißung. Uber die 
Entstehung des Neuen in der Deutschen Literaturwissenschaft seit den 1920er Jahren unter 
besonderer Berücksichtigung der Geistes- und Kulturwissenschaften«, in: Geschichtlichkeit von 
Sprache und Text. Philologien — Disziplingenese - Wissenschaftshistoriographie, hg.v. Wulf 
Oesterreicher und Maria Selig. Paderborn 2014, S. 255-273. 

96 Das zeigen die vielen Pamphlete und Positionspapiere der Digital Humanities. Sie sind si- 
cherlich von hoher wissenschaftspolitischer Bedeutung, aber haben in den meisten Fällen kei- 
nen direkten Einfluss auf die Forschungspraxis. 
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Regel über eine hohe »Beharrungstendenz« verfügt und sich von »guten Argu- 
menten: nur wenig beeindrucken lässt.” Praktiken sind daher immer auch als 
»konservative Agenten« einer Disziplin zu verstehen.?® 

Vor diesem Hintergrund ist es daher wenig verwunderlich, dass Underwood, 
Sellers, Rhody und Schöch, wie auch die bisherige quantitative Forschung insge- 
samt, vor allem »Problemstellungen in den Vordergrund rücken, die in der Fach- 
geschichte vor 200 (Weltliteratur), 100 (Autorenphilologie) bzw. 50 (Topik der 
europäischen Literaturen) Jahren Konjunktur hatten«.”? Underwood, Sellers, 
Rhody und Schöch bilden hier keineswegs Ausnahmen. Im Zentrum der literatur- 
wissenschaftsnahen Digital Humanities steht in der Regel nicht das »Great Un- 
read«, sondern die kanonische Literatur des 17., 18. und 19. Jahrhunderts.'° Mit- 
hilfe digitaltechnologischer Programme werden beispielweise Worte bei Edgar 
Allan Poe, Zitationen aus Texten im 19. Jahrhundert und Erzählstimmen in dem 
Werk von Gertrude Stein gezählt. Die erhobenen Daten werden dann zumeist 
in ein Verhältnis zu einer anderen Größe gesetzt und als Prozentangaben darge- 
stellt. Je komplexer die Erhebungen sind, umso öfter werden die Angaben zu 
Häufigkeiten in Visualisierungen überführt. Die Sichtbarkeit der Gegenstände im 
Text wird demnach nicht - wie üblich - durch Quellenzitate präsent gehalten. Im 
Text tritt das Forschungsmaterial in Form von Zahlen, Formeln oder Visualisie- 
rungen auf. Visualisierungen können als Diagramme, Graphen, Koordinatensys- 
teme, Raster, Figuren, Tabellen oder abstrakten Strukturen abgebildet werden. 
Als Produkte eines langwierigen und komplexen Herstellungs- und Selektions- 


97 Vgl. Jaeggi: Kritik von Lebensformen, S. 119-127. 

98 Ebd., S. 123. 

99 Nicolas Pethes und Marcus Krause: »Scholars in Action. Zur Autoreferentialität philologi- 
schen Wissens im Wandel medialer Praktiken«, in: Deutsche Vierteljahrsschrift für Literaturwis- 
senschaft und Geistesgeschichte 91 (2017), S. 73-108, hier S. 105f. 

100 Moretti: Distant Reading, S. 47 im Anschluss an Margaret Cohen. Vgl. Margaret Cohen: The 
Sentimental Education of the Novel. Princeton 1999, S. 23. 

101 Julius Laffal: »Union and Separation in Edgar Allan Poe«, in: Literary and Linguistic Com- 
puting 12.1 (1997), S. 1-13; Jean-Gabriel Ganascia, Pierre Glaudes und Andrea Del Lungo: »Auto- 
matic Detection of Reuses and Citations in Literary Texts«, in: Literary and Linguistic Compu- 
ting 29.3 (2014), S. 412-421; Tanya Clement, David Tcheng, Loretta Auvil, Boris Capitanu und 
Joao Barbosa: »Distant Listening to Gertrude Stein’s Melanctha. Using Similarity Analysis in a 
Discovery Paradigm to Analyze Prosody and Author Influence«, in: Literary and Linguistic Com- 
puting 28.4 (2013), S. 582-602. 
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prozesses stehen diese Visualisierungen am Ende einer langen Kette von Erhe- 
bungs-, Aufzeichnungs- und Verarbeitungspraktiken.'” Sie sind »graphische Ab- 
kürzungsverfahren fiir komplexe Schematisierungen«, die dabei helfen, zu ver- 
stehen, »wovon die Rede ist«.'” 

In der Regel ist es nicht so, dass »die« Interpretation der Visualisierungen >auf 
der Hand liegt«. Das »Aufzeigen einer Struktur oder Konfiguration« ist »auch das 
Anzeigen von Rekonfigurationsmöglichkeiten«.'” Auch wenn in den Forschun- 
gen zur Diagrammatologie vielfach davon ausgegangen wird,'® dass Visualisie- 
rungen eine entproblematisierende Funktion besitzen, indem sie »simplifizie- 
ren« und »das Komplexe [...] leichter verständlich [machen]«, so ist es dies 
sicherlich nur eine Seite der Medaille. Zwar haben Visualisierungen den Vorteil 
»gegenüber Zahlenkolonnen [...,] daß sie riesige Datenmengen auf ein kompak- 
tes Format komprimieren [können]« und daher die Identifikation von möglichen 
Mustern oder Regularien überhaupt erst ermöglichen.” Die Ergebnisse solcher 
Identifizierungen, lassen sich allerdings relativ einfach irritieren und stellen 
diese nur vermeintlich »verlässlichen« Quellen in Frage.’ 

Wird die Komplexität der unübersichtlichen Daten mithilfe von Visualisie- 
rungen entsprechend reduziert, erhöht sich die Komplexität der Interpretation. 
Muster müssen nicht nur erkannt und gedeutet werden, sondern lösen zugleich 
auch Skepsis aus: Vielleicht täuschen die visuellen Strukturen, vielleicht sind 
Zählwerte nicht korrekt angegeben worden - und vielleicht »liest< man sie nicht 


102 Vgl. Edward Vanhoutte, Ron van den Branden: »Describing, Transcribing, Encoding, and 
Editing Modern Correspondence Material. A Textbase Approach«, in: Literary and Linguistic 
Computing 24.1 (2009), S. 77-98. 

103 Christian Stetter: »Bild, Diagramm, Schrift«, in: Schrift. Kulturtechnik zwischen Auge, Hand 
und Maschine, hg. v. Gernot Grube, Werner Kogge und Sybille Krämer. München 2005, S. 115- 
135, hier S. 124. 

104 Matthias Bauer und Christoph Ernst: »Einleitung«, in: Diagrammatik. Einführung in ein kul- 
tur- und medienwissenschaftliches Forschungsfeld, hg.v. dens. und Birgit Schneider. Biele- 
feld 2010, S. 9-16, hier S. 10 [Herv. i. O.]. 

105 Vgl. William J. T. Mitchell: »Diagrammatology«, in: Critical Inquiry 7.2 (1981), S. 622-635; 
Frederik Stjernfelt: Diagrammatology. An investigation on the Borderlines of Phenomenology, On- 
tology, and Semiotics. Dordrecht 2007; Sybille Krämer: »Operative Bildlichkeit. Von der »>Gramm- 
atologie« zu einer »Diagrammatologie<? Reflexionen über erkennendes »Sehen««, in: Logik des 
Bildlichen. Zur Kritik der ikonischen Vernunft, hg. v. Martina Heßler und Dieter Mersch. Biele- 
feld 2009, S. 94-117. Sowie als jüngstes Beispiel Jan Wöpking: Raum und Wissen. Elemente einer 
Theorie epistemischen Diagrammgebrauchs. Berlin, Boston 2016. 

106 Wöpking: Elemente einer Theorie epistemischen Diagrammgebrauchs, S. 13. 

107 Heintz und Huber: »Der verführerische Blick«, S. 13. 

108 Vgl. ebd. S. 25. 
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richtig? An welcher Stelle des bisherigen Forschungsprozesses könnten sich 
»Fehler< eingeschlichen haben, die man nicht mehr tolerieren dürfte bzw. die auf 
weitere Zusammenhänge schließen lassen und entsprechend gedeutet werden 
müssten? 

Fotis Jannidis, Isabella Reger, Steffen Pielström, Christof Schöch, Thorsten 
Vitt, Stefan Evert und Thomas Proisl fragen sich in ihrem Beitrag angesichts die- 
ser Irritationen, 


[w]hy do different feature scaling strategies and distance calculation methods perform dif- 
ferently? And finally, how can knowledge about these questions be used to improve author- 
ship attribution methods?!” 


In ihrem Beitrag, in dem sie je drei Romane der englischen Literatur aus dem 
19. und 20. Jahrhundert von 25 unterschiedlichen kanonisch gewordenen Auto- 
ren untersuchen, geht es darum, mit Hilfe von mehreren «experiments«, »tests« 
and »two hypotheses« herauszufinden, mit welchen Worten oder Worthäufigkei- 
ten Autorschaften identifiziert und berechnet werden kénnen."° Was in den Tex- 
ten mit komplexen Formeln berechnet und mit unterschiedlichen Distanzmaßen 
dargestellt wird, ist der Versuch, die zahlreichen kleinen Unterschiede in der je- 
weiligen Häufigkeit der Merkmale in den Texten zu einem einzigen Wert zusam- 
menzufassen, der zum Schluss die Unterschiedlichkeit bzw. Ähnlichkeit der 
Texte insgesamt ausdrücken kann. Die Diskussion darüber bzw. das Vorführen 
von Experimenten mit den most frequent words (MFW), also den am häufigsten 
vorkommenden, ausgewählten Wörtern, verweist auf eine technisierte Modulati- 
onsfähigkeit und die multiple Befragungsfähigkeit des Gegenstands. So können 
die Autoren zeigen, dass ein Distanzmaß vor allem dann erfolgreich ist, »wenn 
es strukturelle Unterschiede der Vorlieben eines Autors erfasst, ohne sich davon 
beeinflussen zu lassen, wie stark das Autorenprofil in einem bestimmten Text 
ausgeprägt ist«: Dies funktioniert indes nur, wenn weniger als 2000 MFW erfasst 
werden. Legt man mehr als 2000 MFW fest, verschlechtert sich die Objektivität 


109 Fotis Jannidis, Isabella Reger, Steffen Pielström, Christof Schöch, Thorsten Vitt, Stefan 
Evert und Thomas Proisl: »Understanding and Explaining Delta Measures for Authorship Attrib- 
ution«, in: Digital Scholarship in the Humanities 32 Beiheft 2 (2017), S. 1-13, hier S. 2. An diesem 
Beitrag haben sieben Wissenschaftler unterschiedlicher disziplinärer Herkunft gearbeitet. Die- 
ses Beispiel steht für die allgemeine Beobachtung, dass interdiszplinäre und kooprative Arbeits- 
einheiten auch zum Alltag der Digital Humanities gehören. 
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des Textabstandsmaftes."" Dann werden Themen und Inhalte wichtiger als Au- 
torschaft, so die finale »>Vermutung: der Autoren. 

Die dezidiert vorldufigen Ergebnisse der Autoren zeigen, dass die Gegen- 
stände durch den Quantifizierungsprozess (und die Praktiken des Erhebens, 
Rechnens, Visualisierens und erneuten Berechnens) eine Darstellung »zweiter 
Ordnung« sind." Daten, Zahlen und Visualisierungen haben nicht den Status ei- 
nes anschaulichen Belegs. Sie sind Interpretationsobjekte, die in der Regel nicht 
für sich selbst sprechen. Die Interpretation ist der Visualisierung also »nicht 
nachgeschaltet, sondern Herstellung und Interpretation sind Prozesse, die sich 
wechselseitig durchdringen«.'” Erst in der Verbindung mit anderen Teilprakti- 
ken, beispielsweise des Kontextualisierens oder des Historisierens, avanciert das 
»bloße« Visualisieren oder das »reine« Quantifizieren zu einem bedeutungsvollen 
und voraussetzungsreichen Element in der Interpretationspraxis. 


5 Schluss 


Die Innovativität des Quantifizierens gründet also auf der Art und Weise der Be- 
handlung der Gegenstände, die dann ein »neues« »epistemisches Ding« heraus- 
bildet." Es sind sogar »vollkommen neue Objekte«, betont Franco Moretti: »Die 
neue Größenordnung verändert unser Verhältnis zu unserem Gegenstand, ja in 
Wirklichkeit verändert sie den Gegenstand selbst«."” Es sind, so Moretti weiter, 
»künstlich (von Wissenschaftlern) geschaffene abstrakte Objekte«."° Mit Blick 


111 Vgl. Fotis Jannidis, Stefan Evert, Friedrich Michael Dimpel, Christof Schöch, Steffen Piel- 
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auf seine Quantifizierungsprojekte erklart er, dass die 200 000 von ihm unter- 
suchten Romane durch die computergestiitzte »Abstraktion« des Auszählens, 
Rechnens und Visualisierens gewissermaßen »aus dem Zusammenhang« geris- 
sen, in »völlig anderer Verbindung« präsentiert und »für den Zweck der Analyse 
in einer Form aufbereitet« würden, welche nur noch mithilfe von Programmen 
und Algorithmen erfasst werden könnten.'” In dieser Hinsicht lenkt die Digitali- 
sierung die Aufmerksamkeit nicht nur auf den technischen Fortschritt. Vielmehr 
gerät die beeindruckende Komplexität literaturwissenschaftlicher Praxiszusam- 
menhänge in den Fokus. Was durch die Quantifizierungen offensichtlich wird, 
ist »also der Sachverhalt und nicht die »Sache selbst««."? 
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Emmerich Kelih 

Quantitative Verfahren in der russischen 
Literaturwissenschaft der 1920er und 
1930er Jahre 


B. I. Jarcho und sein Beitrag zur quantitativen 
Literaturgeschichte 


Abstract: The paper offers background information about the application and use 
of quantitative methods in Russian literary and philological studies in the 1920s 
and 1930s of the 20" century. The focus lies on the substantial contribution of 
B. I. Yarkho (1889-1942) and his »exact« approach to the analysis of literary texts. 
Rooted in the Russian formalism movement, Yarkho developed a concise theoret- 
ical and methodological framework for the quantitative analysis of texts, both 
from a diachronic and synchronic point of view. In particular, Yarkho claimed to 
have found some general principles of the chronological development of the lit- 
erary history. Finally, it can be shown in particular that these ideas are of an on- 
going interest for the current discussion in quantitative literary studies and in 
distant reading. 


Einleitung 


Hat man die Entwicklung der Anwendung von quantitativen Verfahren in der 
russischen Literaturwissenschaft vor Augen, so kann getrost von einer wellenför- 
migen Entwicklung gesprochen werden. Während ein erster Höhepunkt für das 
Ende des 19. Jahrhunderts anzusetzen ist, kann in den 1910er bis 1930er Jahren 
eine umfassende Etablierung der Verwendung quantitativer Verfahren im breiten 
Umfeld des russischen Formalismus konstatiert werden. Nach einer längeren 
Stagnation — bedingt durch die geschichtlichen Entwicklungen in der Sowjet- 
union — kommt es erst im Rahmen der »kybernetischen Revolution« der 1950er 
und 1960er Jahre zu einem neuerlichen Höhepunkt der Anwendung quantitativer 
Methoden. Dies führte zu einer nachhaltigen Integration und Verankerung der 
Anwendung statistischer Methoden in vielen Bereichen der russischen/sowjeti- 
schen Literatur- und Textwissenschaft. Für den gegenwärtigen Zeitraum kann für 
den russischen literaturwissenschaftlichen Betrieb weder eine Marginalisierung 
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statistischer Verfahren noch eine besondere Fokussierung auf derartige Metho- 
den festgestellt werden, wenngleich ausgehend vom weltweiten Trend der Digital 
Humanities mit neuen Impulsen zu rechnen ist. Der vorliegende Beitrag ist aber 
weniger der aktuellen Situation gewidmet, sondern vielmehr explizit wissen- 
schaftshistorisch ausgerichtet. Es geht um einen selektiven Teilaspekt, nämlich 
um den Beitrag des im Westen weitgehend unbekannt gebliebenen russischen 
Literaturwissenschaftlers Boris Isaakovié Jarcho (1889-1942). Es wird zuerst das 
theoretische und methodologische Grundgerüst seiner »exakten« Literaturwis- 
senschaft in einem gerafften Überblick vorzustellen sein. In einem weiteren 
Schritt wird es darum gehen, einige seiner genuin empirisch-statistischen Bei- 
träge zur quantitativen Dramenanalyse und quantitativen Literaturgeschichte 
vorzustellen. Es wird zu zeigen sein, dass B. I. Jarchos Beitrag aus heutiger Sicht 
als erstaunlich innovativ einzuschätzen ist und somit durchaus von hoher Rele- 
vanz für die aktuelle quantitative Literaturwissenschaft sein könnte. Besondere 
Aufmerksamkeit wird der komplexen Frage nach der statistischen/mathemati- 
schen Modellierung von literaturgeschichtlichen Phänomenen gewidmet, die be- 
reits in den 1920er Jahren durch B. I. Jarcho intensiv diskutiert wurde und - wie 
zu zeigen sein wird — auch im gegenwärtigen Kontext des distant reading neuer- 
lich aufgegriffen wird. Es wird auch zu diskutieren sein, ob sich erkennbare Mus- 
ter in der historischen Entwicklung literarischer Formen in irgendeiner Weise be- 
gründen lassen, wobei einerseits auf literatursoziologische, andererseits aber 
auch auf generell sprachliche Modellierungsansätze zurückgegriffen werden 
kann. 


1 Stellenwert quantitativer Verfahren in der 
russischen Literaturwissenschaft der 1920er 
und 1930er Jahre 


Aus einer Außenperspektive lässt sich der russische/sowjetische literaturwissen- 
schaftliche Betrieb der 1920er und 1930er Jahre in groben Zügen als eine Phase 
des Theoretisierens, der grundlegenden Offenheit gegenüber unterschiedlichen 
Methoden und insgesamt als pluralistisch und interdisziplinär umschreiben. 
Diese Umschreibung gilt in erster Linie in Bezug auf die Arbeiten des russischen 
Formalismus, die aber weder in ihrer Genese, in ihrer Entwicklung noch in ihrer 
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aktuellen Relevanz an dieser Stelle rekapituliert werden miissen.’ Dieser »empi- 
riefreundlichen« Zeit ist u. a. der Umstand geschuldet, dass die Anwendung sta- 
tistischer Methoden in der Literaturwissenschaft (der aber zugegebenermaßen 
viele Vertreter des russischen Formalismus grundsätzlich kritisch bzw. 
ablehnend gegenüberstanden) gegen Ende der 1920er Jahre bereits in einem in- 
stitutionell verankerten Rahmen betrieben wurde. Letztlich erweist es sich, dass 
quantifizierende Verfahren als ein integraler Bestandteil des literaturwissen- 
schaftlichen Methodologie- und Theorieapparates angesehen wurden - ein Um- 
stand, der im heutigen literaturwissenschaftlichen Wissenschaftsbetrieb in die- 
ser ausgeprägten Form (noch?) nicht beobachtbar ist. Eine überaus produktive 
und wichtige Rolle spielte die Staatliche Akademie der Kunstwissenschaften (russ. 
Gosudarstvennaja akademija chudozestvennych nauk — GACHN), die Ende der 
1920er Jahre ein ungemein breites Spektrum vieler philologischer, aber auch 
kunst- und theaterwissenschaftlicher Richtungen abdeckte.? Ein Markenzeichen 
dieser Akademie war der Fokus auf interdisziplinäre Zusammenarbeit, und in 
vielerlei Hinsicht ist die GAChN als ein Zentrum der Innovation sowohl in Theorie 
und Methodologie als auch Empirie der Kunstwissenschaft, inklusive der Litera- 
tur- und Textwissenschaft zu verstehen. 


1 Vgl. dazu die Darstellungen in Victor Erlich: Russian formalism. History, doctrine. ’s-Graven- 
hage 1955 (Slavistic printings and reprintings 4); Jurij Striedter: Russischer Formalismus. Texte 
zur allgemeinen Literaturtheorie und zur Theorie der Prosa. München 1971 (Uni-Taschenbücher 
Literaturwissenschaft 40); Aage A. Hansen-Löve: Der russische Formalismus. Methodologische 
Rekonstruktionen seiner Entwicklung aus dem Prinzip der Verfremdung. Wien 1978 (Veröffentli- 
chungen der Kommission für Literaturwissenschaft, Österreichische Akademie der Wissenschaf- 
ten, Philosophisch-Historische Klasse 5) u. a. m. 

2 Vgl. dazu den Sammelband von Aage A. Hansen-Löve, Brigitte Obermayr und Georg Witte: 
Form und Wirkung. Phänomenologische und empirische Kunstwissenschaft in der Sowjetunion der 
1920er Jahre. München 2013 mit einer Vielzahl von Beiträgen zu phänomenologischen und em- 
pirischen Ansätzen in den »Kunstwissenschaften« dieser Zeit und Igor Cubarov: »Das Projekt 
einer Synthese von Philosophie, Psychologie und Kunst an der Moskauer Akademie für Kunst- 
wissenschaften (GAChN) 1921-1931«, in: Ästhetik von unten. Empirie und ästhetisches Wissen, 
hg. v. Marie Guthmüller und Wolfang Klein. Tübingen u. a. 2006, S. 351-379 bzw. Nikolaj Plotni- 
kov: »Einleitung. Die Staatliche Akademie der Kunstwissenschaften in der europäischen ästhe- 
tischen Diskussion der 1920er Jahre«, in: Kunst als Sprache - Sprachen der Kunst. Russische As- 
thetik und Kunsttheorie der 1920er Jahre in der europäischen Diskussion, hg. v. ders. Hamburg 
2014, S. 7-30 u. a. m. zu einem Überblick über die zentrale Rolle der GACHN. 
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1.1 B. I. Jarchos exakte Literaturwissenschaft: Einige 
Eckpunkte 


In den genannten institutionellen Rahmen der GACHN lässt sich das Schaffen von 
B. I. Jarcho stellen, dessen Konzeption einer exakten Literaturwissenschaft nun- 
mehr genauer vorzustellen sein wird. Jarcho war u. a. gegen Ende der 1920er 
Jahre Leiter der GAChN-Sektionen Allgemeine Literaturwissenschaft, Theoreti- 
sche Poetik und Kiinstlerische Ubersetzung. Als seine wissenschaftlichen 
Schwerpunkte sind die mittelalterliche westeuropäische Literatur, Stilistik, Me- 
trik, Poetik und Dramentheorie zu nennen, d. h. es ist eine ungemeine Breite von 
Interessen zu verzeichnen. Dennoch kann aus heutiger Sicht eine relative Unbe- 
kanntheit konstatiert werden, die sowohl für den »westlichen« Diskurs als auch 
für den russischen Bereich gilt. Im Grunde genommen erfolgte eine Neu-Entde- 
ckung von B. I. Jarcho erst in den letzten fünfzehn Jahren. In Hinblick auf die 
Etablierung und Fundierung quantitativer Methoden in der Literaturwissen- 
schaft ist aber vor allem sein bedeutendes Werk unter dem Titel Metodologija 
toénogo literaturovedenija. Izbrannye trudy po teorii literatury (in dt. Übersetzung: 
Methodologie der exakten Literaturwissenschaft. Ausgewählte Werke zur Literatur- 
theorie) zu nennen’ - seine sonstigen vielzähligen Publikationen sind über viele, 
z. T. schwer zugängliche Zeitschriften und Sammelbände verstreut. Dieses Werk 
konnte aufgrund der verdienstvollen Arbeit von M. V. Akimova, I. A. Pil’S¢ikov 
und M. I. Šapir im Jahr 2006, versehen mit umfangreichem Kommentar, auf Rus- 
sisch erscheinen.“ 


3 Boris Isaakovič Jarcho: Metodologija točnogo literaturovedenija. Izbrannye trudy po teorii lite- 
ratury. Izd. podgot. Übersetzt von M. V. Akimova, I. A. Pilľščikov und M. I. Sapir. Moskau 2006 
(Philologica Russica et speculativa 5). 

4 Die Entstehungsgeschichte dieser Monographie ist direkt mit dem tragischen Schicksal von 
B. I. Jarcho zur Zeit der Stalinschen Repressionen verknüpft. Die genannte Akademie wird im 
Jahr 1930 aufgelöst und B. I. Jarcho wird 1935 in Zusammenhang mit weitreichenden Säuberun- 
gen im philologischen Bereich verhaftet und zu drei Jahren Haft verurteilt, die aber später in eine 
Verbannung in Omsk umgewandelt wird. Er stirbt im Jahr 1942 (als Todesdatum wird der 3. Mai 
genannt) in vollkommen menschlicher und wissenschaftlicher Isolation, vgl. dazu Marina V. A- 
kimova und M. I. Sapir: »Boris Isaakovié Jarcho i strategija »to@nogo literaturovedenija«« im 
Vorwort in Jarcho: Metodologija tocnogo literaturovedenija, S. 7-32, hier S. 17. Die Monographie 
Metodologija tocnogo literaturovedenija wurde in den Jahren 1935 bis 1936 im Lager verfasst und 
blieb letztlich unvollendet. Als wichtige, vorher veröffentlichte Texte sind zu nennen: Boris 
Isaakovié Jarcho: »Granicy nauénogo literaturovedenija«, in: Isskustvo. Zurnal gosudarstvennoj 
akademii chudozestvennych nauk 2 (1925), S. 45-60, »Granicy nau@nogo literaturovedenija«, in: 
Isskustvo. Žurnal gosudarstvennoj akademii chudoZestvennych nauk 3.1 (1927), S. 16-38 und »Or- 
ganische Struktur des russischen Schnaderhüpfels (Castuska)«, in: Germanoslavica 1.2 (1935), 
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Dieses monographische Werk ist ein umfangreicher Entwurf einer exakten 
Literaturwissenschaft, die im Wesentlichen auf der Verwendung von quantitati- 
ven und statistischen Methoden beruht, dabei aber die wichtigen Aspekte einer 
allgemeinen theoretischen Einbettung dieser methodologischen Ausrichtung 
nicht vernachlässigt. Die Eckpunkte dieser exakten Literaturwissenschaft’ lassen 
sich auf der Grundlage von Jarcho (2006) relativ gut umreißen und rekonstruie- 
ren: Zentraler Ausgangspunkt ist eine spezifische Auffassung über die künstleri- 
sche Ausgestaltung (chudozestvennost’/Kunsthaftigkeit) eines Textes. Diese 
ergibt sich für Jarcho aus der Gesamtheit formaler Textelemente, die in der Lage 
sind, beim Rezipienten ein ästhetisches Gefühl hervorzurufen. Dieses einfache 
Modell einer Rezeptionsästhetik, die sowohl für die Literatur- als auch Kunstwis- 
senschaft von Belang ist, ist aber nicht der eigentliche originelle Baustein seiner 
exakten Literaturwissenschaft. 

Die eigentliche Innovation kommt ins Spiel - und damit kann der Bogen zur 
Notwendigkeit der Verwendung von statistischen Methoden in der Literaturwis- 
senschaft gespannt werden -, sofern man die Gesamtheit der formalen Elemente 
in ihrer Individualität betrachtet und dabei ein gesondertes Augenmerk auf die 
Verwendungshäufigkeit dieser Elemente richtet. Die Frequenz formaler Einhei- 
ten bedingt aber, so nun Jarchos Ideen weiter, dass das Interesse des Literatur- 
wissenschaftlers an einem Werk umso höher sein sollte, je vielzähliger und viel- 
fältiger die formalen Elemente dieses Werkes sind. Es ist aber nicht nur die 
Vielzahl und Vielfalt formaler Elemente allein, die die Kunsthaftigkeit eines Tex- 
tes ausmacht, sondern im Denken von Jarcho wird — und damit ist ein Perspekti- 
venwechsel auf den literarischen Text verbunden - ein ästhetischer Effekt beim 
Rezipienten erst dann in Gang gesetzt, sobald etwas in einer ungewöhnlichen 


S. 31-64. Eine (auszugsweise) englische Übersetzung von Metodologija to@nogo literaturo- 
vedenija findet sich in Boris Isaakovié Yarkho: »Methodology for a Precise Science of Literature. 
(Draft plan)«, in: Formalist Theory, hg. v. L. M. O’Toole und Ann Shukman. Oxford 1977 (Russian 
Poetics in Translation 4), S. 52-70. 

5 Vgl. dazu auch Guido Carpi: »Per una scienza esatta della letteratura. Jarcho e la sua metodo- 
logia«, in: Russica Romana 7 (2006), S. 115-122; Uri Margolin: »B. I. Yarkho’s Programme for a 
Scientifically Valid Study of Literature«, in: Essays in Poetics 4.2 (1979), S. 1-37; Emmerich Kelih: 
Geschichte der Anwendung quantitativer Verfahren in der russischen Sprach- und Literaturwissen- 
schaft. Hamburg 2008, S. 118-136; Emmerich Kelih: »B. I. Jarchos »exakte« Literaturwissen- 
schaft: Kontext und Umfang«, in: Form und Wirkung. Phänomenologische und empirische Kunst- 
wissenschaft in der Sowjetunion der 1920er Jahre, hg. v. Aage A. Hansen-Löve, Brigitte Obermayr 
und Georg Witte. München 2013, S. 411-426; Mikela Venditti: »K sravneniju nau¢nych metodo- 
logii B. I. Jarcho i G. G. Speta«, in: Philologica 9.21-23 (2012), S. 357-367 u. a. m. 
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Proportion auftritt.° Diese Ungewöhnlichkeit (neobyénye proporcii) der Proporti- 
onen hinsichtlich der Verwendungshäufigkeit von formalen Elementen ist als ein 
relationales Konzept zu verstehen und impliziert immer das Vorhandensein eines 
Vergleichstextes, sei es nun eines literarischen oder nicht-literarischen Textes.’ 
Aus dieser Perspektive ist es daher nicht weiter verwunderlich, dass Jarcho sich 
nicht nur intensiv mit der Frage der Abgrenzbarkeit von literarischen vs. nicht- 
literarischen Texten (diese Frage stand bei den russischen Formalisten durch- 
wegs im Mittelpunkt), sondern auch generell mit der Abgrenzbarkeit von Genres, 
Gattungen, Stilrichtungen usw. auseinandersetzte. Der Einzeltext steht also 
kaum im Fokus des Interesses, sondern in der Regel ist für die exakte Literatur- 
wissenschaft immer eine größere Menge von Texten relevant. Dabei erkannte 
Jarcho aber sehr wohl die Unmöglichkeit einer objektorientierten scharfen Ab- 
grenzung dieses Textspektrums und propagierte stattdessen ein (vor diesem Hin- 
tergrund durchaus verständliches) Konzept eines graduellen bzw. stetigen Über- 
ganges zwischen Texten bzw. Textsorten und Genres. 

Hinsichtlich der möglichen Untersuchungsebenen eines literarischen Textes 
schwebt Jarcho ein hierarchisch strukturiertes Schichtenmodell vor Augen, wel- 
ches u. a. folgende Teilbereiche umfasst: (1) die Phonik, worunter beliebige Ei- 
genschaften der »Wort-Instrumentierung« verstanden werden (russ. slovesnaja 
instrumentovka) (bezogen auf poetische Texte z. B. die Zäsur, die »syntaktische« 
Pause, die Euphonik, die Strophik, der Rhythmus usw.), (2) die sogenannte Sti- 
listik (u. a. Analyse von Stilfiguren, Frage von Alliterationen, Metaphern und Me- 
tonymien sowie die quantitative Stil- bzw. Genretypologie und der quantitative 
Stilvergleich von Übersetzungen) und (3) eine allgemeine Poetik (inkl. Motiv- und 
Sujet-Forschungen und Untersuchungen des obraz? bzw. Quantifizierungen der 
Emotions- und Ideen-Konzeption von literarischen Werken).? Diese Ausrichtung 
der exakten Literaturwissenschaft ist bereits deutlich in Jarcho (1925, 1927) her- 
ausgearbeitet. Für viele dieser genannten Bereiche hat Jarcho auch empirische 
Studien vorgelegt, die aber an dieser Stelle nicht im Detail thematisiert werden 
können. Generell ist seine Konzeption sowohl für synchrone als auch diachrone 


6 Vgl. Jarcho: Metodologija tocnogo literaturovedenija, S. 89 sowie ausführlicher S. 118ff. 

7 Vgl. dazu ebd., S. 89. 

8 Eine adäquate Übersetzung dieses in der russischen Literatur- und Sprachwissenschaft weit 
verbreiteten Begriffs kann nur kontextbezogen geleistet werden und kann z.B. u. a. als innere 
Form, Gestalt, Bildlichkeit usw. in Erscheinung treten. Vgl. dazu Wolfgang Eismann: »Die Ge- 
schichte des obraz-Begriffes in der russischen und sowjetischen Literaturwissenschaft«, in: Ein- 
führung in allgemeine Probleme der Semiotik, hg. v. Vjačeslav Vsevolodovié Ivanov. Darmstadt 
1985, S. 1-45, der einen terminologiegeschichtlichen Abriss zu obraz liefert. 

9 Jarcho: Metodologija točnogo literaturovedenija, S. 31-51. 
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Fragestellungen geeignet, da auch die zeitliche Entwicklung von literarischen 
Formen und Gattungen — dazu mehr in Kapitel 1.2. — als Grundbestandteil der 
exakten Literaturwissenschaft angesehen wird. 

Jarcho ist sich der Tatsache bewusst, dass eine Bestimmung der Vorkom- 
menshaufigkeit nur unter vorangehender ausführlicher Definition der zu unter- 
suchenden Merkmale und Einheiten möglich ist. Eine Überwindung hinsichtlich 
der z. T. beobachtbaren Verschwommenheit literaturwissenschaftlicher Begriffe 
erscheint für ihn möglich, sofern eine engere Anbindung an die Linguistik er- 
folgt. Insofern ist die Linguistik für ihn eine Art Hilfswissenschaft, ebenso wie 
auch die Statistik, deren damaligen methodologischen Stand der Dinge Jarcho in 
der Tat sehr gut kannte. 

Es ist aber nicht die Forderung nach der Anwendung von statistischen Me- 
thoden, das Überschreiten und Verwischen der Grenzen zwischen Geistes- und 
Naturwissenschaften und die Utilisierung der Linguistik als Hilfsmittel der exak- 
ten Literaturwissenschaft als prägendes Markenzeichen von B. I. Jarcho zu sehen. 
Vielmehr unterscheidet sich die exakte Literaturwissenschaft von B. I. Jarcho von 
anderen zeitgleichen Ansätzen vor allem dadurch, dass er folgendes Erkenntnis- 
zielin den Mittelpunkt seines literaturwissenschaftlichen Interesses rückt: Es ist 
dies die Aufdeckung von Gesetzmäßigkeiten in literarischen Werken, wobei er 
darunter explizit das Aufdecken von Wechselbeziehungen und Zusammenhängen 
zwischen quantitativ erfassbaren Strukturmerkmalen eines literarischen Textes 
versteht. Dabei definiert Jarcho als Gesetzmäßigkeit »[...] eine typische, d. h. sich 
sehr oft wiederholende Beziehung zwischen Phänomenen« (russ.: Zakon est‘ ti- 
piceskaja, t.e. ocen‘ často povtorjajusajasja svjaz‘ meZdu javlenijami).' Der litera- 
rische Text ist somit keineswegs die Summe der Häufigkeit von Elementen und 
Merkmalen - diese mechanistische Auffassung wäre trivial und auch nicht weiter 
spannend -, sondern der Text wird als ein komplexes und ineinander verwobe- 
nes Ganzes verstanden, welches hinsichtlich der quantitativ erfassbaren Merk- 
male durch einen gesetzmäßigen Aufbau gekennzeichnet ist. Die Wechselbezie- 
hungen selbst sind — und damit betritt Jarcho konzeptuelles Neuland — nicht 
deterministischer Natur, sondern, wie Jarcho explizit hervorhebt, sie erscheinen 
auf der zeitlichen Achse als Tendenzen, und die Gültigkeit einer Wechselbezie- 
hung ist immer im Kontext der jeweiligen Anzahl von beobachtbaren Ausnahmen 
zu sehen. Insofern kann man davon ausgehen, dass es sich bei den angeführten 
Gesetzmäßigkeiten um stochastische Relationen" handelt. 


10 Ebd., S. 28. 
11 Ohne Zweifel ist diese Definition einer sprachlichen Gesetzmäßigkeit etwas simplizistisch, 
da ein wesentlicher Aspekt, nämlich die Ableitung aus einem Set von deduktiven Hypothesen, 
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Ohne Zweifel wird somit die exakte Literaturwissenschaft als eine nomolo- 
gisch-ideographische Wissenschaft verankert. Um abschließend zumindest kurz 
auch die empirische Dimension des Begriffes Wechselbeziehung vor Augen zu 
führen, sei auf Jarcho (1935) verwiesen, der in dieser Arbeit die Grundzüge einer 
statistischen Untersuchung von Wechselbeziehungen demonstriert.” Es geht 
hierbei vor allem um die Konzeptualisierung von Kompensationsmechanismen 
in Form von quantitativ untersuchbaren Korrelationsverhältnissen. Der literari- 
sche Text besteht für Jarcho — wie bereits gesagt — nicht nur aus einzelnen forma- 
len Merkmalen, sondern es sind eben die jeweiligen Proportionen und deren je- 
weilige Wechselwirkungen von besonderer Bedeutung. Damit knüpft Jarcho an 
(viel) später ausgearbeitete Systemtheorien der Selbstorganisation und Selbstre- 
gulation an.” Deren zentrale Idee ist es, unter anderem zu beobachten, ob die 
Änderung eines Merkmals in einem System die Veränderung eines damit inhä- 
rent verbundenen Merkmals nach sich zieht und auf welche Art und Weise dieser 
Prozess vonstattengeht und auf welche Art und Weise sich ein organisiertes Gan- 
zes ergibt. Jarcho (1935) gelingt ein sehr früher empirischer Nachweis für diese 
Art von Fließgleichgewicht, indem er u. a. auf der Basis von russischen Castuski 
(im Deutschen entspricht dies am ehesten dem sogenannten Schnaderhüpfel bzw. 
Gstanzl) zeigt, dass z. B. eine starke (im Sinne von häufig beobachtbarer) struk- 
turelle Gliederung der phonischen Ebene (Reim, Alliterationen, Wiederholungs- 
figuren usw.) mit einer schwachen (im Sinne von weniger häufigen) Gliederung 
der syntaktischen Ebene einhergeht. Nachweisbar ist demnach ein jeweiliger ge- 
genseitiger Ausgleich, eine Balance, eine Kompensation zwischen den einzelnen 
Merkmalen und Charakteristika. Es sind gerade diese Stellen, die B. I. Jarchos 
exakte Literaturwissenschaft als erstaunlich modern erscheinen lassen. Im 
nächsten Kapitel wird nun zu zeigen sein, welche Ausrichtung die exakte Litera- 
turwissenschaft von B. I. Jarcho in Hinblick auf historische bzw. diachrone Fra- 
gestellungen einnimmt. 


fehlt. Allerdings ist sein Ansatz im damaligen Kontext als durchaus fortschrittlich zu bezeich- 
nen. 

12 Jarcho: »Organische Struktur des russischen Schnaderhüpfels«, S. 31-64. 

13 Vgl. dazu Werner Ebeling, Jan Freund und Frank Schweitzer: Komplexe Strukturen. Entropie 
und Information. Stuttgart, Leipzig 1998; Hermann Haken: Information and Self-Organization. A 
macrosopic approach to complex systems. Berlin, Heidelberg, New York 2006 (Springer Series 
in Synergetics 40); Wolfgang Krohn, Hans-Jürgen Krug und Günter Küppers: Konzepte von Chaos 
und Selbstorganisation in der Geschichte der Wissenschaften. Berlin 1992; Reinhard Köhler: Zur 
linguistischen Synergetik. Struktur und Dynamik der Lexik. Bochum 1986 (Quantitative Linguis- 
tics 31) u.a. m. 
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1.2 Beiträge zur quantitativen Literaturgeschichte 


B.I. Jarcho war hinsichtlich seiner Konzeption einer exakten Literaturwissen- 
schaft durchaus konsequent. Wenn man bedenkt, dass er hinsichtlich der Gültig- 
keit von Gesetzmäßigkeiten des literarischen Textes vor allem eine historische 
Dimension vor Augen hatte, ist seine Hinwendung zu Fragen der quantitativen 
Untersuchung der historischen Entwicklung von literarischen Formen, Genres, 
Stilen usw. nicht weiter verwunderlich. Auch in diesem Fall geht es ihm um die 
Frage des Entdeckens von gesetzmäßigen, sich wiederholenden Mustern. 

Der grundlegende Ausgangspunkt für die Demonstration ausgewählter Prob- 
leme einer quantitativ orientierten Literaturgeschichte findet sich in Jarcho 
(1997), wo er sich die grundsätzliche Frage nach einer quantitativ basierten Un- 
terscheidung von Tragödien und Komödien aus dem Klassizismus und der Ro- 
mantik stellt.“ Als Grundlage dient ihm die Tragödie in fünf Akten (ohne Chor). 
In über 150 Werken von mehr als 20 (deutschen, französischen, englischen) 
Autoren aus der ersten Hälfte des 17. Jh. bis in die 1820er und 1830er Jahre unter- 
sucht er in einem ersten, deskriptiv orientierten Schritt die Häufigkeit von ausge- 
wählten Dramenmerkmalen.” Es geht hierbei z. B. um das quantitative Verhält- 
nis von sprechenden und anwesenden Personen (koéfficient ispol‘ pozvanija per- 
sonazej dlja dialoga/Ausnutzungskoeffizient von Personen im Dialog) und insbe- 
sondere um die Anzahl von sprechenden Personen pro Auftritt. Quantitativ wird 
dieses Merkmal in Form von Mittelwerten pro Figur bzw. in weiterer Folge pro 
Autor und Epoche erfasst. 

Im Rahmen einer Synthese seiner ausführlichen Auszählungen von Dramen- 
texten entdeckt Jarcho folgendes Muster: Die Veränderungen in der Häufigkeit 
des Anteils von sprechenden Personen im Verhältnis zu Personen auf der Bühne 
unterliegen chronologisch gesehen - und es liegen immerhin umfangreiche Da- 
ten aus drei Jahrhunderten vor - einer S-förmigen Entwicklung." Man hat es also 
mit einem sukzessiven Anstieg des Anteils von sprechenden Personen zu tun, der 
dann aber ab einem gewissen Punkt wiederum steil nach unten zeigt, eben eine 


14 Boris Isaakovié Jarcho: »Raspredelenie reči v pjatiaktnoj tragedii (K voprosu o klassicizme i 
romantizme)«, in: Philologica 4.8-10 (1997), S. 201-288. 

15 Vgl. ebd., S. 206. 

16 Vgl. ebd., S. 254. 
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Art von S-förmiger Entwicklung. Auf diese Weise gelingt es B. I. Jarcho in zentra- 
ler Weise, auf den systematischen und letztlich somit modellierbaren Verlauf 
hinzuweisen.” 

Das Finden einer derartigen empirischen Regelmäßigkeit ist ohne Zweifel 
nur ein erster Schritt, zumal auch - und dies gilt für jegliche Form der wissen- 
schaftlichen Analyse — eine entsprechende Erklärung für dieses Phänomen zu 
liefern wäre. An dieser Stelle können zwar keine umfassenden und zufriedenstel- 
lenden Erklärungen für dieses Phänomen geliefert werden, aber es sollen zumin- 
dest einige mehr oder weniger plausible Erklärungsansätze genannt werden. 

Zuerst ist es angebracht, Erklärungs- und Interpretationsversuche anzufüh- 
ren, die von Jarcho selbst stammen. Zu beginnen ist mit einem allgemeinen An- 
satz, wonach sich literarische Formen nach demselben Muster verhalten wie 
auch Eigenschaften in der »materiellen« Welt, wie z. B. der Physik, der Chemie, 
der Biologie, der Wirtschaft usw." So ist es auch nicht verwunderlich, dass von 
ihm ein sogenanntes Rückschlagsgesetz (zakon regressii, law of regression) ins 
Spiel gebracht wird. Präziser ist damit wohl das law of filial regression gemeint, 
welches von Francis Galton (1822-1911) im Bereich der Biologie formuliert wurde 
und in der Statistik unter dem Begriff der Regression zur Mitte bekannt ist. Ver- 
einfacht gesagt besagt dieses »Gesetz«, dass bei einer Messung von mehreren Da- 
tenpunkten ein auftretender Extremwert tendenziell von einem Wert gefolgt 
wird, der näher am Mittelwert der gesamten Messreihe liegt.” Dieser Effekt, der 
vor allem im biologischen und im psychologischen Bereich eine Rolle spielt, wird 
u. a. auf zufallsgesteuerte Prozesse zurückgeführt.” In anderen Worten ausge- 
drückt: eine nachfolgende »Generation« folgt nicht dem Weg der Vorgänger, son- 
dern es ergibt sich eine Tendenz zur Mitte, eine durchschnittliche Reduktion von 
Merkmalen bzw. Regulation in Hinblick auf die Vorgängergeneration. 

Problematisch an dieser »Begründung« ist aber deren offensichtliche biolo- 
gische »Wurzel«, deren fruchtbare Anwendung bzw. Übertragung auf literatur- 
geschichtliche Fragestellungen erst geklärt werden müsste.” Im Grunde wird ja 


17 Vgl. dazu Jarcho: Metodologija tocnogo literaturovedenija, S. 342-349 mit dem Hinweis auf 
einen geeigneten mathematischen Apparat für die Modellierung wellenförmiger Prozesse der 
Zu- und Abnahme von ausgewählten Textmerkmalen auf der zeitlichen Achse. 

18 Vgl. Boris Isaakovié Jarcho: »Raspredelenie reči v pjatiaktnoj tragedii«, S. 254. 

19 Vgl. Gerd Gigerenzer et al.: Das Reich des Zufalls. Wissen zwischen Wahrscheinlichkeiten, 
Häufigkeiten und Unschärfen. Heidelberg 1999, S. 165. 

20 Vgl. dazu Christof Nachtigall und Ute Suhl: »Der Regressionseffekt. Mythos und Wirklich- 
keit«. In: methevalreport 4.2 (2002), S. 1-9. 

21 Der Vollständigkeit halber muss erwähnt werden, dass Jarcho: »Raspredelenie reči v pjati- 
aktnoj tragedii«, S. 256 sich der Tatsache bewusst ist, dass man in diesem Punkt Vorsicht walten 
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von sehr allgemeinen Entwicklungstendenzen auf der chronologischen Achse 
ausgegangen. Eine enge Anlehnung von Jarcho an Konzepte aus der Biologie 
bzw. Vererbungslehre ist auch anderenorts festzustellen.” Ubertragen auf die 
quantitative Literaturgeschichte steht somit die Veränderung von phonischen 
und morphologischen Textmerkmalen, Motiven, Stilmitteln usw. im Vorder- 
grund. Insbesondere von Interesse sind dabei offenbar aber der jeweilige Einfluss 
einer Vorgängergeneration auf die Nachfolger und das jeweilige Ausmaß der 
»strukturellen« Entlehnungen von Autoren und deren gegenseitige Beeinflus- 
sung. 

Originell ist in diesem Zusammenhang auch eine weitere Idee von B.I. 
Jarcho, wonach man auf quantitativem Wege die Proportionen zwischen »alten« 
und »neuen« Kombinationen literarischer Verfahren feststellen solle, die genaue 
Auskunft über die Originalität eines literarischen Werkes geben können.” Je fei- 
ner graduiert die Elemente sind, die ein Verfahren konstituieren — so Jarcho wei- 
ter —, desto leichter können sich neue Kombinationen und Proportionen ergeben, 
die eben die Dynamik der literaturgeschichtlichen Entwicklung bedingen.” Un- 
terschieden werden können des Weiteren dominante (im Sinne von auf der zeit- 
lichen Achse zunehmenden) bzw. rezessive Merkmale, die nach seinen empiri- 
schen Beobachtungen? einen S-förmigen Verlauf einnehmen bzw. entsprechend 
einem angenommenen »Rückschlagsgesetz« beispielsweise bei einer literari- 
schen Generation eine stärkere Abweichung nach sich ziehen, aber dafür bei der 
nächsten Generation in Form von »Überkompensationen« wiederum überdurch- 
schnittlich oft aufscheinen. 

Es ist hier nicht der Ort, Jarchos Originalität bzw. einen Vergleich seiner Po- 
sitionen einer quantitativen Literaturgeschichte mit den theoretischen Positio- 
nen der russischen Formalisten (insbesondere V. Sklovskij bzw. Ju. Tynjanov) in 


lassen sollte und es fiir das Aufstellen von allgemeingiiltigen Entwicklungsgesetzen in diesem 
Bereich wohl noch zu friih sei; in erster Linie geht es ihm darum, die Methoden vorzulegen. 

22 Jarcho: Metodologija tocnogo literaturovedenija, S. 7, 243-249 und 263-264. 

23 Im Original: »Koli¢estvennoe sootnoSenie meZdu sochranennymi starymi kombinacijami i 
vvedenymi novymi i dast Skalu samostojatel’nosti (original’nosti) literaturnych proizvedevnij«, 
vgl. ebd., S. 258. Das quantitative Verhältnis zwischen den erhaltenen alten Kombinationen und 
neu eingeführten ergibt eine Skala der Selbständigkeit (Originalität) der literarischen Werke. 
24 Ebd., S. 258. 

25 U.a. werden bei ihm bei Dramenanalysen die Anzahl von Eigennamen, die Anzahl von han- 
delnden Personen, die Anzahl von Sprechern auf der Bühne, die Anzahl von Akten, der Anteil 
von Dialogen bzw. Monologen usw. als ein gattungs-, aber gleichzeitig auch epochentypisches 
Merkmal in Betracht gezogen. Des Weiteren geht es ihm um Reim- und Strophenstrukturen, die 
Anzahl von unterschiedlichen Formen von Repliken usw. 
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Hinblick auf die »Evolution« literarischer Texte durchzuführen, aber generell 
lässt sich eine offenkundige Anlehnung daran erkennen. In jedem Fall gibt es 
aber hinsichtlich literaturgeschichtlicher Entwicklungsgesetze zentrale Unter- 
schiede und Gemeinsamkeiten: Für beide Ansätze steht nicht der individuelle 
Text im Vordergrund, sondern eben Werke im Kontext von anderen Texten. Der 
zentrale Unterschied ist aber die Forderung nach der auf quantitativen Merkma- 
len beruhenden Untersuchung der »Evolution« literarischer Texte - und genau 
dieser Punkt ist nur für Jarcho konstituierend. 


1.3 Morettis Kurven, Karten ... Zur Modellierung 
literaturgeschichtlicher Phänomene 


An dieser Stelle bietet sich ein kurzer Exkurs in die gegenwärtige Diskussion um 
die Wege und Möglichkeiten einer »quantitativen« Literaturwissenschaft bzw. im 
speziellen einer quantitativen Literaturgeschichte an. Exemplarisch ist in diesem 
Zusammenhang auf Moretti zu verweisen, der durchaus als ein repräsentativer 
Ausgangspunkt einer auf quantitativen Daten basierenden Literaturgeschichte 
angesehen werden kann.” Konzeptuell lassen sich ohne Zweifel viele Querver- 
bindungen zwischen den Ansätzen von F. Moretti und B. I. Jarcho finden. Die 
Hinwendung zu empirischen Fakten und Daten ist beiden Ansätzen inhärent, die 
sich durch den Fokus auf die Analyse einer Masse von literarischen Texten (Stich- 
wort distant reading) ergibt. Eine weitere Gemeinsamkeit ergibt sich auch hin- 
sichtlich der Suche nach Mustern eines gesetzmäßigen Verlaufs der historischen 
Entwicklung literarischer Formen bzw. Gattungen. Die Sichtweise von B. I. Jarcho 
ist bereits im vorangehenden Kapitel skizziert worden, aber es ist hervorzuheben, 
dass die Perspektive hinsichtlich von Mustern in der literaturgeschichtlichen Ent- 
wicklung von F. Moretti eine etwas andere ist. Moretti geht es vor allem - wienun 
kurz zu zeigen sein wird — um im Grunde literatursoziologische Fakten, die einer 
bestimmten Art von Gesetzmäßigkeit und somit auch Modellierung unterliegen. 


26 Vgl. dazu u.a. Peter-André Alt: »Theorien literarischer Evolution bei Sklovskij, Tynjanov 
und Mukafovsky«, In: arcadia — International Journal for Literary Studies 21 (1986), S. 1-22; Rad 
Borislavov: »Revolution is Evolution. Evolution as a Trope in Sklovskij’s Literary History«, in: 
Russian Literature 69.2-4 (2011), S. 209-238; Aage A. Hansen-Löve: »Evolution vs. Genese. Vom 
Kampf ums Überleben der literarischen Gattung zum Recycling«, in: kultuRRevolution 68 (2015), 
S. 40-47. 

27 Franco Moretti: Kurven, Karten, Stammbdume. Abstrakte Modelle für die Literaturgeschichte. 
Frankfurt a. M. 2009. 
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Dies lässt sich gut anhand seiner Untersuchung der Häufigkeit von unter- 
schiedlichen englischen Romangenres (z. B. Briefroman, Liebesroman, Schel- 
menroman) zeigen, die im von Moretti untersuchten Zeitraum (in der Regel von 
1700 bis 1900) eine bestimmte zyklische Entwicklung aufweisen bzw. generellein 
wiederkehrendes Muster von Auf- und Abstieg aufweisen.” Oder es lässt sich, 
wenn man den graphischen Verlauf interpretiert, sowohl bei der Häufigkeit von 
unterschiedlichen Romantypen als auch beim prozentuellen Anteil am Gesamt- 
markt der englischen Romane tatsächlich eine Art von S-förmiger Kurve beobach- 
ten.” Ähnlich wie Jarcho, wenngleich aber mit deutlich weniger statistischem 
Hintergrundwissen ausgestattet, stellt Moretti sodann die berechtigte Frage, ob 
derartige »[...] wellenartige Muster so etwas wie die Schwingungen eines gehei- 
men Pendels der Literaturgeschichte« sind?” Mit anderen Worten formuliert: 
Wenngleich Jarcho seine seinerzeitige Entdeckung weniger plakativ umrissen 
hat, bleibt als gemeinsamer Nenner von Jarcho und Moretti die Frage nach einer 
gesetzesartigen, systematischen, modellierbaren Entwicklung von literaturge- 
schichtlichen Phänomenen. 

Interessant und hervorhebenswert sind in diesem Zusammenhang die Ver- 
suche einer Begründung für diese beobachtbare Regelmäßigkeit. Die Ant- 
wort(en) und möglichen Interpretationen von Moretti (2009: 10-26) sind durch- 
aus wert, rekapituliert zu werden, da sie im Gesamten für eine präzisere 
Verortung von Gesetzmäßigkeiten in der quantitativen Literaturgeschichte von 
Bedeutung sein könnten.” In erster Linie lässt sich - genauso wie auch bei Jarcho 
— ein Querbezug zu den russischen Formalisten herstellen, da Moretti vor allem 
auf V. Sklovskij Bezug nimmt.” Hier wird das Auftreten von neuen Formen und 
Verfahren dadurch begründet, dass sich alte Formen überlebt haben und eben 
nicht mehr eingesetzt werden, womit sich sukzessive neue Muster durchsetzen 
können. 

Im Fall der Romananalyse beobachtet Moretti in der S-förmigen Zu- und Ab- 
nahme der unterschiedlichen Romangattungen sogar ein bestimmtes wiederkeh- 
rendes Zeitintervall im Ausmaß von 25 bis 30 Jahren.” Als entsprechende Erkla- 
rung hierfür wird der Lebenszyklus einer Generation von Leserinnen und Lesern 
angeführt, wonach sich eben das »mentale« Klima von Generation zu Generation 


28 Ebd., S. 21-26. 

29 Vgl. dazu die Grafiken ebd., S. 23 bzw. 24. 
30 Ebd., S. 26. 

31 Ebd., S. 10-26. 

32 Ebd., S. 25. 

33 Ebd., S. 29. 
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verschiebt. Ein ahnliches Muster ergibt sich aber interessanterweise auch bei der 
Auswertung des Anteils der Frauen und Manner unter den Autorinnen und Auto- 
ren, der ebenfalls durch eine regelmäßige Zu- und Abnahme gekennzeichnet 
ist.” Dies ist in der Weise zu deuten, dass die Genrezugehörigkeit, die Produktion 
bestimmter Gattungen und das Geschlecht der Autorinnen und Autoren wohl in 
einem engen Zusammenhang zueinander stehen müssen. 

Aus der Sicht einer quantitativen Literaturwissenschaft (im Sinne von B. I. 
Jarcho) ist die von Moretti verwendete Methodologie nicht in besonderer Weise 
erwähnenswert, zumal Moretti sich auf absolute bzw. prozentuelle Häufigkeiten 
von Merkmalen, inklusive einhergehender Visualisierung, beschränkt und die 
Frage einer statistischen/mathematischen Modellierung der beobachteten Phä- 
nomene nicht näher anspricht.” Bedeutender ist aber der Ansatz, dass beobacht- 
bare wellenförmige Muster - die ja als Konstrukt zu betrachten sind, zumal em- 
pirische Befunde dazu spärlich sind und eine theoretische Einbettung zu weiten 
Teilen zu fehlen scheint - generell durch »externe« Faktoren zu erklären sind. Es 
sind dies nicht nur die Lesegewohnheiten einer bestimmten Lesergeneration 
bzw. das Geschlecht der Autorinnen, sondern es lassen sich noch eine Vielzahl 
weiterer Faktoren anführen. Man denke z. B. an ökonomische Gründe (billigere 
Produktionskosten bedingen die Verbreitung von bestimmten, ev. gerade kurzen 
Formaten), die Änderung des Leseverhaltens (z. B. aufgrund von Alphabetisie- 
rungsmaßnahmen), die Änderung des Lesekanons im schulischen Betrieb (z. B. 
aufgrund kulturpolitischer Eingriffe), politische Eingriffe in Form von Zensur, ge- 
nerelle soziopsychologische oder ökonomische Gründe in Verbindung mit dem 
Buchmarkt usw. usf., all dies sind Faktoren, die durchaus plausibel sind und ins 
Spiel gebracht werden können. Generell können darüber hinaus »Abnutzungser- 
scheinungen« und durch »Inflation« bedingte Formen der Ersetzung bzw. aus 
der Ökonomie bekannte zyklische Phänomene - die, dem Modellcharakter ge- 
schuldet, durch Angebot und Nachfrage gesteuert sind - angeführt werden. 

Und damit lässt sich wiederum der Bogen zu B. I. Jarcho selbst spannen, der 
sich der gesetzesartigen Entwicklung der Literaturgeschichte (die in ihrer unge- 
meinen Vielfalt ohne Zweifel nur immer aufgrund relativ grober Kategorien - und 


34 Vgl. dazu die graphische Darstellung der Auswertung von englischen Autorinnen und Auto- 
ren im Zeitraum von 1800 bis 1830: ebd., S. 36. 

35 Dies gilt auch für Matthew L. Jockers: Macroanalysis. Digital Methods and Literary History. 
Urbana, Chicago, Springfield 2013, der ebenfalls empirische Evidenz für wellenartige Bewegun- 
gen in der Literaturgeschichte liefert, aber die Frage einer mathematischen Modellierung nicht 
näher anspricht. 
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selbst die Kategorienbildung ist umstritten - operationalisiert werden kann) be- 
wusst war, dabei aber »externe Faktoren«, wie die oben angeführten, nicht in Be- 
tracht ziehen wollte. Jarcho war sich aber zumindest der Tatsache bewusst, dass 
die beobachteten Muster und Entwicklungslinien keinen Spezialfall darstellen, 
sondern auf dieser abstrakten Ebene auch in anderen Gebieten wie der Biologie 
oder der Ökonomie zu beobachten sind. Vor diesem Hintergrund bietet es sich 
daher abschließend an, auf einschlägige Forschungen in der Linguistik zu ver- 
weisen, die von B. I. Jarcho ohnehin - neben der Statistik - als Hilfsdisziplin der 
exakten Literaturwissenschaft angesehen wird. 

Bei diachronen Fragestellungen ist die Linguistik ebenfalls mit dem Problem 
der Modellierung der Durchsetzung bzw. des Rückgangs von unterschiedlichen 
»morphologischen« Formen, d. h. linguistischen Merkmalen und Einheiten, kon- 
frontiert. Insbesondere die quantitative Linguistik hat hinsichtlich der Modellie- 
rung von auf der chronologischen Achse verlaufenden Änderungen von sprach- 
lichen Strukturen und Merkmalen einen großen Erfahrungsschatz aufzuweisen. 
Exemplarisch ist in diesem Zusammenhang auf das sogenannte Piotrovskij-Ge- 
setz hinzuweisen.” Dieses tritt vordergründig als ein Ensemble von mathemati- 
schen Formeln in Erscheinung, welches vor allem für die Modellierung der Ände- 
rung der Vorkommenshäufigkeit von sprachlichen Entitäten auf der zeitlichen 
Achse herangezogen werden kann. An dieser Stelle ist der mathematische Model- 
lierungsapparat beiseite zu lassen und es ist vielmehr vor allem die inhaltliche 
Begründung des auch in der Linguistik beobachtbaren S-förmigen Entwicklungs- 
verlaufs zu diskutieren: Ausgangspunkt ist ein (einfaches) Sprecher-Hörer-Mo- 
dell, welches besagt, dass von beiden Seiten unterschiedliche Bedürfnisse aus- 
gehen, die einer gegenseitigen Regulation unterliegen. 

Als grundlegende in Konkurrenz stehende Bedürfnisse wird u. a. das Streben 
nach Diversifikation und das Streben nach Unifikation angesehen, die aber auf- 
grund der unterschiedlichen Relevanz für den Hörer und den Sprecher nicht 
überproportional strapaziert werden müssen, sondern sich in der Regel in einer 
Art von Fließgleichgewicht befinden. In diesem Ansatz hängt es somit von der 
jeweiligen Intensität und Richtung der Interaktion zwischen Hörer und Sprecher 


36 Vgl. dazu Gabriel Altmann: »Das Piotrowski-Gesetz und seine Verallgemeinerungen«, in: 
Exakte Sprachwandelforschung. Theoretische Beiträge, statistische Analysen und Arbeitsberichte, 
hg. v. Karl-Heinz Best und Jörg Kohlhase. Göttingen 1983 (Göttinger Schriften zur Sprach- und 
Literaturwissenschaft 2), S. 54-90; Edda Leopold: »Das Piotrowski-Gesetz«, in: Quantitative Lin- 
guistik. Quantitative Linguistics. Ein internationales Handbuch. An International Handbook, hg. v. 
Reinhard Köhler, Gabriel Altmann und Rajmund G. Piotrowski. Berlin, New York 2005 (Handbü- 
cher zur Sprach- und Kommunikationswissenschaft 27), S. 627-633. 
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ab, ob sich eine bestimmte sprachliche Form durchsetzt, oder aber im Riickzug 
begriffen ist. Ausgehend von diesem »interaktionistischen Ansatz«”, dessen 
Grundzüge Altmann erläutert,” ergibt sich, dass sich sprachliche Neuerungen 
generell ähnlich einem Virus durch »erfolgreiche« oder »weniger erfolgreiche« 
Abstimmung und Interaktion zwischen Hörer und Sprecher durchsetzen können. 
Wichtig ist in diesem Ansatz, dass die Geschwindigkeit der Ausbreitung einer 
neuen Form immer in einem proportionalen Verhältnis zum Anteil einer alten 
Form steht. 

Die Geschwindigkeit kann sich dabei aber nicht unendlich steigern, sondern 
es kommt an einem bestimmten Punkt zu einem Stopp der Ausbreitung, welcher 
mit einer Art von Sättigungseffekt zu erklären ist. Dieser Sättigungseffekt ist auch 
verantwortlich für einen (mehr oder weniger schnellen) Rückgang der Ausbrei- 
tung, so dass sich in Summe genommen wiederum ein S-förmiger Verlauf ergibt. 
Der für das Piotrovskij-Gesetz vorgesehene mathematische Formelapparat sieht 
aber nicht nur ein Auf und Ab des Verlaufs vor, sondern die genaue Zu- und Ab- 
nahme der untersuchten Einheiten kann anhand der empirischen Daten auch 
exakt geschätzt werden. Darüber hinaus sind unterschiedliche Spezialfälle vor- 
gesehen, die u.a. eine unvollständige Ausbreitung, eine vollständige Ausbrei- 
tung und auch rückläufige Anpassungsprozesse erfassen können. Damit ist in 
Grundzügen der Modellierungsansatz dargelegt, der durchaus auch für literatur- 
geschichtliche Fragestellungen herangezogen werden kann. In diesem Sinne 
kann das Piotrovskij-Gesetz, welches bislang seine Anwendung vor allem in der 
historischen und quantitativen Sprachwissenschaft erfahren hat, zumindest als 
ein diskussionswerter Input für quantitativ orientierte literaturgeschichtliche 
Fragestellungen betrachtet werden. Diese werden in Zukunft aber vor allem da- 
ran zu messen sein, ob eine empirische Bestätigung für systematische Verläufe 
im Sinne des Piotrovskij-Gesetzes gefunden werden können. Die heutige Litera- 
turwissenschaft im Kontext eines distant reading scheint in diesem Sinne gerade 
den Weg für eine derartige Modellierung zu ebnen. 


2 Perspektiven 


Das bislang Gesagte lässt sich aus unterschiedlichen Perspektiven zusammenfas- 
sen und es lassen sich eine Reihe von Aspekten ableiten, die für eine quantitative 


37 Leopold: »Das Piotrowski-Gesetz«, S. 627. 
38 Altmann: »Das Piotrowski-Gesetz und seine Verallgemeinerungen«. 
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Literaturwissenschaft von Relevanz sein können. In erster Linie konnte gezeigt 
werden, dass — unter Bezug auf die Entwicklung der Geschichte der russischen 
Literaturwissenschaft — bereits seit langem der Einsatz von quantitativen Metho- 
den als konstitutiv anzusehen ist. Dies ist mit einer wichtigen Erweiterung des 
methodologischen Spektrums gleichzusetzen. Die Verwendung quantitativer Me- 
thoden in der Literaturwissenschaft ist aber - und dies ist ein weiterer zentraler 
Punkt - vor allem in Abhängigkeit eines gewählten theoretischen Rahmens zu 
sehen. Selbst wenn man einen hermeneutischen Ansatz wie das close reading 
oder Ähnliches vor Augen hat, können immer auch quantitative Daten und Me- 
thoden stützend eingesetzt werden. Eine quantitative, exakte Literaturgeschichte 
sui generis, wie sie u.a. B. I. Jarcho vorschwebte, beinhaltet aber nicht nur die 
Verwendung quantitativer Verfahren als integralen bzw. »stützenden« Bestand- 
teil, sondern zeichnet sich vor allem dadurch aus, dass mit Hilfe dieser Methoden 
srundlegende Gesetzmäßigkeiten des Aufbaues literarischer Texte überhaupt 
erst ausfindig gemacht werden. Darüber hinaus stehen eben wiederkehrende 
Muster bzw. Wechselbeziehungen zwischen den Elementen im Vordergrund des 
Interesses. Dies bedeutet aber auch, dass der Einzeltext kaum im Fokus steht, 
sondern eben eine Vielzahl von Texten, die für die Analyse herangezogen werden 
bzw. als eine entsprechende Vergleichsbasis zur Verfügung stehen müssen. Wie 
deutlich gezeigt werden konnte, ist die exakte Literaturwissenschaft im Sinne 
von B. I. Jarcho sowohl für synchrone als auch diachrone Fragestellungen geeig- 
net. Die Untersuchung von chronologisch beobachtbaren Entwicklungsverläufen 
wird dabei - und dies ist ein bemerkenswerter Punkt - durchaus im Sinne einer 
mathematisch modellierbaren Regelmäßigkeit verstanden. Das Hervorheben die- 
ser Modellierbarkeit bedingt auch, wie gezeigt werden konnte, eine nahtlose An- 
knüpfung an heutige Beobachtungen und empirische Erfahrungen im Rahmen 
des distant reading. Es ist ohne Zweifel ein Verdienst von B. I. Jarcho, diese Art 
von Gesetzmäßigkeiten in der historischen Entwicklung literarischer Phänomene 
nicht nur erkannt zu haben, sondern auch in Grundzügen deren Form (S-förmiger 
Verlauf) bestimmt zu haben. Damit wurde die Tür für eine interdisziplinäre Aus- 
einandersetzung mit dieser Fragestellung geöffnet und gleichzeitig die Möglich- 
keit aufgezeigt, allgemeine Konstruktionsmechanismen ins Auge zu fassen, die 
auch in anderen Gebieten für die Modellierung chronologischer Fragestellungen 
(Biologie, Psychologie, Neurowissenschaften, Ökonomie, Soziologie, Physik und 
vor allem Linguistik) von Relevanz sind. Freilich sind die vorhandenen empiri- 
schen Erfahrungen in diesem Bereich noch viel zu gering, um generelle Aussagen 
über das Funktionieren und die Modellierbarkeit sprachlicher Texte tätigen zu 
können. 
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Benjamin Krautter 
Uber die Attribution hinaus 


Forschungsperspektiven der Stilometrie als Anwendungsfeld in 
der Literaturwissenschaft 


Abstract: In computational literary studies, stylometrics are most commonly 
used for authorship attribution studies. This article argues that there is a poten- 
tial use for stylometrics in literary studies beyond the mere detection of author- 
ship. To show this, several current research approaches are analysed and por- 
trayed. However, the utilization of stylometrics bear limitations, such as its 
relative nature — the comparisons are only valid within the analyzed corpus - and 
its susceptibility for »cherry picking«. 


1 Einführung 


Die Stilometrie, die auf der Basis von Wortfrequenzlisten relative Ahnlichkeiten 
innerhalb eines gewählten Textkorpus abbildet, ist ein potentielles Anwen- 
dungsfeld quantitativer Methoden in der Literaturwissenschaft. Traditionelles 
Einsatzgebiet der Stilometrie ist die Autorschaftsattribution. Ob stilometrische 
Analysen literaturwissenschaftliche Fragestellungen auch über die Zuschrei- 
bung von Autorschaft hinaus bereichern oder sogar anleiten können, soll nach- 
folgend anhand ausgewählter Forschungsbeiträge diskutiert werden. 

Gabriel Viehhauser definiert Stilometrie im Rahmen der Digital Humanities 
als »die Anwendung quantitativer Methoden zur Erfassung und Klassifizierung 
stilistischer Merkmale von Texten«.' Er markiert damit die Verbindung von quan- 
titativen Verfahren, die digital realisiert werden, und ihrem Zielgegenstand, den 
stilistischen Textmerkmalen. Ob der ohnehin schwer zu fassende Begriff »Stil« 
eine gute Wahl ist, um quantitative Methoden wie das Auszählen und Verglei- 


1 Gabriel Viehhauser: »Historische Stilometrie? Methodische Vorschläge für eine Annäherung 
textanalytischer Zugänge an die mediävistische Textualitatsdebatte«, in: Grenzen und Möglich- 
keiten der Digital Humanities. Sonderband der Zeitschrift für digitale Geisteswissenschaften 1, hg. 
v. Constanze Baum und Thomas Stäcker. 2015, http://www.zfdg.de/sb001_009 (30.10.2017). 
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chen von Wortlisten zu beschreiben, bleibt jedoch zu diskutieren; zumal die Vor- 
stellung, jeder Autor habe einen eindeutigen stilistischen Fingerabdruck, falsch 
zu sein scheint und der »Autorstil« eher auf vielen kleinen Signalen beruhe.? 

Die Stilometrie ist gleichfalls keine genuin digitale Methode der Textanalyse. 
Sie geht aus der Analyse des Sprachstils mit Hilfe der Statistik hervor und datiert 
bis ins 19. Jahrhundert zurück.? Als einer ihrer Vorreiter gilt der Mathematiker 
Augustus de Morgan, der 1851 anregte, statistische Messwerte wie die durch- 
schnittliche Wortlänge als Kriterium zur Bestimmung der Autorschaft anonymer 
Texte heranzuziehen: 


Specifically, de Morgan concentrated on the number of letters per word and suspected that 
the average length of words in different Epistles by St. Paul might shed some light on the 
question of authorship; generalizing his ideas, he assumed that the average word lengths 
in two texts, written by one and the same author, though on different subjects, should be 
more similar to each other than in two texts written by two different individuals on one and 
the same subject.“ 


Andere Wissenschaftler wie Thomas Corwin Mendenhall oder Wincenty 
Lutostawski folgen de Morgans Beispiel mit eigenen stilometrischen Arbeiten. Sie 


2 Vgl. Fotis Jannidis: »Der Autor ganz nah. Autorstil in Stilistik und Stilometrie«, in: Theorien 
und Praktiken der Autorschaft, hg. v. Matthias Schaffrick und Marcus Willand. Berlin, Boston 
2014, S. 169-195, hier 183, John F. Burrows: »»Delta<: a Measure of Stylistic Difference and a Guide 
to Likely Authorship«, in: Literary and Linguistic Computing 17.3 (2002), S. 267-287, hier 268. 
und Patrick Juola: »Authorship Attribution«, in: Foundations and Trends in Information Retrieval 
1.3 (2006), S. 233-334, hier 239. 

3 Vgl. Juhan Tuldava: »Stylistics, Author Identification«, in: Quantitative Linguistics, hg. v. Ga- 
briel Altmann, Reinhard Köhler und Rajmund G. Piotrowski. Berlin 2005, S. 368-387, hier 370. 
Vgl. Fotis Jannidis und Gerhard Lauer: »Burrows’s Delta and Its Use in German Literary History«, 
in: Distant Readings. Topologies of German Culture in the Long Nineteenth Century, hg. v. Matt 
Erlin und Lynne Tatlock. Rochester 2014, S. 29-54, hier 31. Einen Abriss der Geschichte der Digi- 
tal Humanities - anfangs Humanities Computing -, deren Ursprünge zumeist mit Roberto Busa 
verbunden werden, gibt Manfred Thaller. Vgl. Manfred Thaller: »Geschichte der Digitial Huma- 
nities«, in: Digital Humanities. Eine Einführung, hg. v. Fotis Jannidis, Hubertus Kohle und Malte 
Rehbein. Stuttgart 2017, S. 3-12. 

4 Peter Grzybek: »History and Methodology of Word Length Studies«, in: Contributions to the 
Science of Text and Language, hg. v. Peter Grzybek. Dordrecht 2007, S. 15-90, hier 15. Jannidis 
und Lauer folgen der Darstellung von Grzybek. Dazu Jannidis, Lauer: »Burrows’s Delta and Its 
Use in German Literary History«, S. 31. Vgl. auch Christof Schöch: »Corneille, Moliére et les 
autres. Stilometrische Analysen zu Autorschaft und Gattungszugehörigkeit im französischen 
Theater der Klassik«, in: Literaturwissenschaft im digitalen Medienwandel. Beihefte zu Philologie 
im Netz 7 (2014), S. 130-157, hier 133 und Juola: »Authorship Attribution«, S. 240. 
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untersuchen etwa die Chronologie von Platons Schriften oder die lange Zeit leb- 
haft diskutierte Kontroverse um die Textzugehörigkeit bei William Shakespeare 
und Christopher Marlowe. Die Zuordnung einzelner literarischer Texte zu einem 
Autor versuchen Mendenhall und Lutostawski durch messbare stilistische Ver- 
änderungen innerhalb der Textkorpora zu bestimmen. Gleiches gilt für die zeitli- 
che Abfolge, in der die Texte verfasst wurden.’ 

Mendenhalls Idee, »peculiarities of style in composition«° über das Auszäh- 
len von Wortlängen graphisch darstellbar zu machen, erscheint kaum gealtert.’ 
Die Entwicklungslinie fortschreitend, identifiziert Efstathios Stamatatos die 1964 
von Frederick Mosteller und David L. Wallace veröffentlichte Studie Inference 
and Disputed Authorship: The Federalist? als »undoubtedly the most influential 
work in authorship attribution«’. Die Analyse von Mosteller und Wallace basiert 
auf einem kleinen Korpus von Funktionswörtern und prägt die Forschung bis in 
die 1990er Jahre.’ 

Die ursprüngliche Idee der Stilometrie, die statistisch gestützte Analyse sti- 
listischer Merkmale von Texten, bleibt auch in ihrer computergestützen Form 
deutlich erkennnbar. Maciej Eder, Jan Rybicki und Mike Kestemont verdeutlichen 
dies in ihrem Aufsatz »Stylometry with R: A Package for Computational Text 
Analysis«: »Stylometry deals with the relationship between the writing style in 


5 Vgl. Jannidis, Lauer: »Burrows’s Delta and Its Use in German Literary History«, S. 31, 54. Mit 
dem Titel von einem seiner Aufsätze prägt Lutosławski zudem den Begriff »Stilometrie«. Vgl. 
Wincenty Lutostawski: »Principes de stylométrie«, in: Revue des études grecques 41 (1890), 
S. 61-80. Vgl. Wincenty Lutostawski: The Origin and Growth of Plato’s Logic. With an Account of 
Plato’s Style and of the Chronology of his Writings. London, New York, Bombay 1897. Vgl. auch 
Grzybek: »History and Methodology of Word Length Studies«, S. 15-17. Die Debatte um Shake- 
speare und Marlowe ist auch mit Blick auf die Stilometrie noch immer aktuell: »Interestingly, 
the methods of stylometry are also actively applied in the Humanities, where multiple historic 
authorship problems in literary studies still seek a definitive solution — the notorious Shake- 
speare-Marlowe controversy is perhaps the best example in this respect.« Maciej Eder, Mike 
Kestemont und Jan Rybicki: »Stylometry with R: A Package for Computational Text Analysis«, 
in: The R Journal 8.1 (2016), S. 107-121, hier 107. 

6 Thomas Corwin Mendenhall: »A Mechanical Solution of a Literary Problem«, in: The Popular 
Science Monthly 60 (1901), S. 97-105, hier 97. 

7 Die Unterscheidung von Wortlängen erscheint heutzutage jedoch veraltet. Juola hält 2006 mit 
Bezug auf eine Studie von M. W. A. Smith fest: »[A]verage word length is neither stable within a 
single author, nor does it distinguish between authors.« Juola: »Authorship Attribution«, S. 240. 
8 Vgl. Frederick Mosteller und David L. Wallce: Inference and Disputed Authorship: The Feder- 
alist. Reading, MA 1964. 

9 Efstathios Stamatatos: »A Survey of Modern Authorship Attribution Methods«, in: American 
Society for Information Science and Technology 60.3 (2009), S. 538-556, hier 538. 

10 Vgl. ebd. 
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texts and meta-data about those texts (such as date, genre, gender, author- 
ship).«" Zu einer vergleichbaren Definition gelangt Christof Schöch, der Stilome- 
trie als »computergestütztes Verfahren der quantitativen Erhebung stilistischer 
Merkmale für die Klassifikation von Texten«” definiert. Eine Verengung in der 
Wahrnehmung der Stilometrie ist dennoch greifbar: die Verengung auf compu- 
tergestützte Verfahren. Dieser Umstand ist einerseits schon dem Kontext der De- 
finition von Viehhauser zu entnehmen: der Rahmung innerhalb der Disziplin Di- 
gital Humanities. Schöch verweist andererseits explizit auf die mindestens 
unterstützende Funktion des Computers. Dasselbe gilt für Kestemont, der die 
Rolle des Computers gleich mehrfach betont: »Computational authorship attri- 
bution is a popular application in current stylometry, the computational study of 
writing style.«” 


2 Perspektiven für die Literaturwissenschaft 


Auch wenn derzeit Verwendungsperspektiven über die Attribution von Autor- 
schaft hinaus sichtbar werden, etwa für die Literaturgeschichtsschreibung oder 
die Gattungstheorie, bleibt die Autorschaftsattribution doch der zentrale Unter- 
suchungsgegenstand stilometrischer Analysen." Ihre Relevanz zeigt sich exemp- 
larisch an den neuesten Ergebnissen von David Hoover, Jan Rybicki, Justin 
Anthony Stover und anderen.” Spätestens John Burrows’ Aufsatz »>Delta« a Mea- 
sure of Stylistics Difference and a Guide to Likely Authorship«, der von Stefan 


11 Eder, Kestemont, Rybicki: »Stylometry with R«, S. 107. 

12 Schöch: Corneille, »Corneille, Moliére et les autres«, S. 133. 

13 Mike Kestemont: »Function Words in Authorship Attribution. From Black Magic to Theory?«, 
in: Proceedings of the Third Workshop on Computational Linguistics for Literature (2014), S. 59- 
66, hier 59. Eder, Kestemont und Rybicki formulieren ganz ähnlich: »Authorship attribution 
plays a prominent role in the nascent field of stylometry, or the computational analysis of writing 
style.« Eder, Kestemont, Rybicki: »Stylometry with R«, S. 107, vgl. auch 108. 

14 Vgl. Eder, Kestemont, Rybicki: »Stylometry with R«, S. 108 und Schöch: »Corneille, Moliére 
et les autres«, S. 133. Weniger festgelegt auf die Attribution formulieren Jeroen Deploige, Mike 
Kestemont und Sara Moens: »Today’s stylometry has become an umbrella term for a still growing 
number of techniques for authorship analysis.« Jeroen Deploige, Mike Kestemont und Sara 
Moens: »Collaborative Authorship in the Twelfth Century: A Stylometric Study of Hildegard of 
Bingen and Guibert of Gembloux«, in: Digital Scholarship in the Humanities 30.2 (2015), S. 199- 
224, hier 206. 

15 Hoover, Kestemont und Rybicki nutzen Rolling Delta als Methode, um stilometrische Signale 
von zwei oder mehr Autoren in kollektiv geschriebenen Texten aufzudecken. Sie untersuchen 
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Evert u. a. als »groundbraking«' bezeichnet wurde, initiierte auch eine weitrei- 
chende Methodendiskussion."” 


Texte von Joseph Conrad und Ford Madox Ford und weisen den beiden Schriftstellern plausibel 
einzelne Textteile zu. Vgl. David Hoover, Mike Kestemont und Jan Rybicki: »Collaborative Au- 
thorship: Conrad, Ford and Rolling Delta«, in: Literary and Linguistic Computing 29.3 (2014), 
S. 422-431. Justin Stover, Mike Kestemont, Yaron Winter und Moshe Koppel erproben Verfahren 
der Autorschaftsverifikation. Im Gegensatz zur Attribution legen keine philologischen Voran- 
nahmen nahe, dass der Autor des Textes tatsächlich in der Kandidatenliste vorhanden ist. Sie 
ordnen dem afrikanischen Autor Apuleius einen kürzlich entdeckten lateinischen Text zu, der 
als einer der weltweit ersten Romane gilt. Vgl. Mike Kestemont, Moshe Koppel, Justin Anthony 
Stover und Yaron Winter: »Computational Authorship Verification Method Attributes a New 
Work to a Major 2™ Century African Author, in: Journal of the Association for Information Science 
and Technology 67.1 (2016), S. 239-242. Zusammen mit Folgert Karsdorp und Walter Daelemans 
authentifizieren Kestemont, Stover und Koppel das Corpus Caesarianum. Sie untersuchen die 
Rolle, die Cäsars General Aulus Hirtius bei der Verfassung des Werks innehatte. Hirtius behaup- 
tet, das Corpus Caesarianum selbst mitgestaltet zu haben. Der Aufsatz legitimiert diese Behaup- 
tung. Vgl. Walter Daelemans, Folgert Karsdorp, Mike Kestemont, Moshe Koppel und Justin 
Stover: »Authenticating the Writings of Julius Caesar«, in: Expert Systems With Applications 63 
(2016), S. 86-96. Jeroen Deploige und Sara Moens widmen sich zusammen mit Kestemont einer 
stilometrischen Analyse der Texte von Hildegard von Bingen und ihrem Schreiber Guibert de 
Gembloux. Sie kommen zum Schluss, dass Guibert die diktierten Texte stilistisch soweit bear- 
beitet haben muss, dass computergestützte Analysen sie ihm zuschreiben. Vgl. Deploige, Keste- 
mont, Moens: »Collaborative Authorship in the Twelfth Century«, S. 199-224. 

16 Stefan Evert, Fotis Jannidis, Steffen Pielström, Thomas Proisl, Christof Schéch, Thorsten Vitt: 
Explaining Delta, or: How Do Distance Measures for Authorship Attribution Work? Abstract, 
http://www.stefan-evert.de/PUB/EvertProislEtc2015_abstract.pdf (30.01.2017). Dazu auch Jan- 
nidis, Lauer: »Burrows’s Delta and Its Use in German Literary History«, S. 32: »Since John F. 
Burrows introduced the Delta measure in his groundbreaking paper of 2002, it has become a 
common standard in stylometry for establishing the relative stylistic difference between two or 
more texts«. 

17 Kestemont geht in seinem Aufsatz »Function Words in Authorship Attribution. From Black 
Magic to Theory?« der noch immer strittigen Frage nach, warum gerade Funktionsworter ein 
guter Indikator fiir Autorstil und das Gelingen stilometrischer Analysen seien. Vgl. Kestemont: 
»Function Words in Authorship Attribution«, S. 59-66. David Hoover testet die Effektivität von 
Burrows’s Delta größtenteils hinsichtlich der zu wählenden Zahl an »most frequent words« und 
konstatiert, dass die Akkuratesse zumindest bis zu einer Anzahl von 600 betrachteten Wörtern 
zunimmt. Vgl. David Hoover: »Testing Burrows’s Delta«, in: Literary and Linguistic Computing 
19.4 (2004), S. 453-475. Ein ähnliches Anliegen verfolgt Efstathios Stamatatos mit seinem Über- 
blick über automatische Ansätze der Autorschaftszuschreibung. Seinen Fokus legt Stamatatos 
auf rechentechnische Voraussetzungen und Konfigurationen. Vgl. Stamatatos: »A Survey of Mo- 
dern Authorship Attribution Methods«, S. 538-556. In eine andere Richtung argumentieren Ar- 
gamon Shlomo, Moshe Koppel und Jonathan Schler. »[R]eal-life authorship attribution problems 
are rarely as elegant as straightforward text categorization problems, in which we have a small 
closed set of candidate authors and essentially unlimited training text for each. A number of 
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Einen weit über wissenschaftliche Debatten hinaus bekannt gewordenen 
Fall erfolgreicher Attribution stellt die Zuordnung von Joanne K. Rowling zu ih- 
rem unter dem Pseudonym Robert Gallbraith veröffentlichten Roman The 
Cuckoo’s Calling dar. Durch einen anonymen Tipp angestoßen, untersuchten Pe- 
ter Millican und Patrick Juola den Roman mit stilometrischen Verfahren und ka- 
men unabhängig voneinander zu dem Schluss, dass Joanne K. Rowling die wahr- 
scheinlichste Autorin sei. In seinem Aufsatz »The Rowling Case: A Proposed 
Standard Analytical Protocol for Authorship Questions« zeichnet Juola sein Vor- 
gehen nach. Zugleich argumentiert er für explizite Standards, denn Verfahren der 
Autorschaftszuschreibung folgten zwar impliziten Vorannahmen, diese müssten 
aber reflektiert und formalisiert werden.” 

Gleichzeitig entsteht aus literaturwissenschaftlicher Warte bisweilen der Ein- 
druck, stilometrische Verfahren wären ausschließlich für die Autorschaftsattri- 
bution zu gebrauchen. Das Interesse an einer plausiblen Zuschreibung von Autor 
zu Text oder Text zu Autor verfügt zwar über einen intrinsischen Mehrwert, den- 


varieties of attribution problems fall short of this ideal«. Sie führen drei Beispiele an, die nicht 
in das für Autorschaftsattribution prototypische Muster einer geschlossenen Reihe möglicher 
Autoren fallen. Dieses Muster wird oftmals für methodologische Überlegungen angenommen, 
etwa wenn Kestemont die Rolle von Funktionswörtern in stilometrischen Analysen für verschie- 
dene Sprachen reflektiert. Den drei Beispielen lassen sich drei Problemen zuordnen: Profiling, 
Nadel im Heuhaufen und Verifizierung. Entweder gibt es keine Eingrenzung der möglichen Kan- 
didaten, eine große Zahl von Kandidaten, für die es gleichzeitig nur einen geringen Textumfang 
gibt, oder es gibt einen Kandidaten, aber keine Eingrenzung auf weitere »Verdächtige«. Shlomo 
Argamon, Moshe Koppel und Jonathan Schler: »Computational Methods in Authorship Attribu- 
tion«, in: Journal of the American Society for Information Science and Technology 60.1 (2009), 
S. 9-26, hier 9. 

18 Vgl. Fotis Jannidis: »Der Autor ganz nah. Autorstil in Stilistik und Stilometrie«, in: Theorien 
und Praktiken der Autorschaft, hg. v. Matthias Schaffrick und Marcus Willand. Berlin, Boston 
2014, S. 169-195, hier S. 169f. Vgl. auch Eder, Rybicki, Kestemont: »Stylometry with R«, S. 107. 
Eder u. a. weißen hier zugleich auf eine weitere prominente Debatte hin, die die Rollen von Har- 
per Lee und ihrem Herausgeber in der Originalversion von To Kill a Mocking Bird diskutiert. 

19 Vgl. Patrick Juola: »The Rowling Case: A Proposed Standard Analytic Protocol for Authorship 
Questions«, in: Digital Scholarship in the Humanities 30.1 (2015), S. 100-113. 
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noch sollte eine literaturwissenschaftliche Arbeit hermeneutische Fragestellun- 
gen,” die an die Attribution anknüpfen, nicht vernachlässigen. Gabriel Viehhau- 
ser erkennt zutreffend, dass die traditionelle Literaturwissenschaft” kaum bereit 
sein werde, sich auf quantifizierende Verfahrensweisen einzulassen, wenn diese 
keinen Anschluss an relevante literaturwissenschaftliche Probleme suche.” Da- 
mit seien Studien zur Autorschaftsattribution mit Hilfe computergestiitzter Ver- 
fahren keinesfalls unter Generalverdacht gestellt oder mit der Frage »So What? «” 
gleichgültig bei Seite geschoben. Gleiches gilt für die noch weiter gefasste Kritik 
von Stanley Fish und Adam Kirsch. Fish polemisiert gegen die Digital Humanities 
aus traditioneller literaturwissenschaftlicher Position: 


But whatever vision of the digital humanities is proclaimed, it will have little place for the 
likes of me and for the kind of criticism I practice: a criticism that narrows meaning to the 
significances designed by an author, a criticism that generalizes from a text as small as half 
a line, a criticism that insists on the distinction between the true and the false, between 
what is relevant and what is noise, between what is serious and what is mere play.” 


20 Ich fasse Hermeneutik hier als ein begründetes Verstehen und Interpretieren von Texten. 
Vgl. Klaus Weimar: »[Art.] Hermeneutik«, in: Reallexikon der deutschen Literaturwissenschaft. 
Neubearbeitung des Reallexikons der deutschen Literaturgeschichte, hg. v. Harald Fricke. Berlin, 
New York 2007, S. 25-29, hier 25. Vgl. zur Beliebigkeit von Interpretationen Lutz Danneberg: 
»Philosophische und methodische Hermeneutik«, in: Philosophia Naturalis 32.2 (1995), S. 249- 
269, hier 255-264. 

21 Wie genau traditionelle Literaturwissenschaft oder traditionelle Methoden der Literaturwis- 
senschaft zu fassen sind, erläutert Viehhauser nicht. Gleiches gilt für die später aufgeführte Kri- 
tik von Stanley Fish, der die Richtung des interpretativen Vorgehens zur Unterscheidung heran- 
zieht. Vgl.: Stanley Fish: »Mind Your P’s and B’s: The Digital Humanities and Interpretation«, in: 
The New York Times (23.01.2012), dann: https://opinionator.blogs.nytimes.com/2012/01/23/ 
mind-your-ps-and-bs-the-digital-humanities-and-interpretation (28.10.2017). Adam Kirsch sieht 
in der Philologie die traditionellste Art textbasierter Wissenschaft. Vgl. Adam Kirsch: Technology 
Is Taking Over English Departments. The False Promise of the Digital Humanities, 02.05.2014, 
https://newrepublic.com/article/117428/limits-digital-humanities-adam-kirsch (27.10.2017). 

22 Vgl. Viehhauser: »Historische Stilometrie?«, o. S. 

23 »So What?« ist der Titel eines Blogeintrages von Matthew L. Jockers, in dem er die gleichgül- 
tige Haltung des Journalisten Dana Mackenzie seinen quantitativen und empirischen Methoden 
gegenüber aufgreift. Daran anschließend argumentiert er, warum die Bestätigung bisheriger An- 
nahmen aus einer neuen Perspektive sinnvoll ist, auch wenn das Ergebnis (scheinbar) das glei- 
che bleibt. Vgl. Matthew L. Jockers: So What?, 07.05.2014, http://www.matthewjockers.net/ 
2014/05/07/so-what/ (27.10.2017). 

24 Fish: »Mind Your P’s and B’s«, o. S. Fish macht vor allem eine Beobachtung hinsichtlich des 
interpretativen Vorgehens stark, wodurch sich Literaturwissenschaft von Digital Humanities un- 
terscheide: »The direction of my inferences is critical: first the interpretative hypothesisandthen 


296 — Benjamin Krautter 


Aus einer anderen Blickrichtung und noch schärfer greift Kirsch die Digital Hu- 
manities an: Traditionelle Geisteswissenschaften müssten sich gar gegen die Ge- 
fahr zur Wehr setzen, die von den Digitial Humanities ausgehe.” »Does the digital 
component of digital humanities give us new ways to think, or only ways to il- 
lustrate what we already know?«, fragt Kirsch und gibt die Antwort selbst, indem 
er quantitativ gestützte Ergebnisse als »fancy reiterations of conventional wis- 
dom« fasst. Warum die Bestätigung anerkannter Thesen durch eine neue Me- 
thode nicht negativ zu bewerten sei, zeigtindes die Reaktion von Jockers: »[C]om- 
putational work in the humanities can be simply about testing, rejecting, or 
reconfirming, what we think we already know. And Ithink that isa good thing!«” 
Die Beweisführung in geisteswissenschaftlichen Fragestellungen sei niemals 
komplett abgeschlossen. Neue Hinweise, die bereits ausgeführte Thesen stützen, 
haben genau deshalb einen Mehrwert. Nicht umsonst formulieren Literaturwis- 
senschaftler häufig den Wunsch der Annäherung an ein Desiderat. 

Sowohl zur Kritik von Fish und Kirsch als auch auf die Antwort von Jockers 
passend, entgegnen Jeroen Deploige, Mike Kestemont und Sara Moens mit Blick 
auf das Problem gemeinschaftlicher Autorschaft im Korpus von Hildegard von 
Bingen: »As neither traditional stylistic analysis nor contextual historical rese- 
arch has so far been able to resolve the problem, we will approach this issue 
through a stylometric analysis.«” Weder philologische noch kontextgestützte 
historische Arbeit könne bisher zufriedenstellend klären, ob die beiden Texte Vi- 
sio de Sancto Martino und Visio ad Guibertum missa Hildegard von Bingen oder 
ihrem Schreiber Guibert de Gembloux zuzuschreiben sind.” Einer der Gründe da- 
für könnte die spezifische Schreibkultur des Mittelalters sein: 


Writing in the Middle Ages meant entering into a dialogue with a long line of predecessors, 
whether through citations, paraphrasing, or allusions. In the actual process of literary com- 
position too, medieval authors only seldom worked alone. A »new« text could be the result 


the formal pattern, which attains the status of noticeability only because an interpretation al- 
ready in place is picking it out. The direction is the reverse in the digital humanities: first you 
run the numbers, and then you see if they prompt an interpretative hypothesis. The method, if it 
can be called that, is dictated by the capability of the tool.« Die Generalisierung von Fish halte 
ich an dieser Stelle fiir tiberspitzt. 

25 Vgl. Adam Kirsch: »Technology Is Taking Over English Departments«, o. S. 

26 Ebd. 

27 Vgl. Jockers: »So What?«, o. S. Vgl. auch nachfolgend. 

28 Deploige, Kestemont, Moens: »Collaborative Authorship in the Twelfth Century«, S. 200. 
Computergestützte Analyseverfahren sind hier bereits im Begriff Stilometrie mitgedacht. 

29 Vgl.ebd. 
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of drafts on wax tablets copied by professional scribes, of processes of dictation and subse- 
quent correction, etc.” 


Deploige, Kestemont und Moens zeigen in ihrem Aufsatz, dass eine auktoriale 
Unterscheidung im beschriebenen Korpus möglich ist. Stilometrische Methoden 
erlauben es, die Differenzen im Schreibstil von Hildegard von Bingen und Guibert 
de Gembloux zu modellieren. Davon ausgehend spricht vieles dafür, dass es mit 
Hilfe der Stilometrie möglich sei, zumindest oberflächliche Eingriffe von Schrei- 
bern in den ursprünglichen Text auszuklammern.” Zugleich stützen die Ergeb- 
nisse eine der im Vorfeld philologisch erarbeiteten Vermutungen, nämlich dass 
Guibert de Gembloux die Texte zumindest sehr tiefgreifend überarbeitet habe.” 
Die empirische Plausibilisierung macht deutlich, dass philologische Problemstel- 
lungen und computergestützte quantitative Methoden durchaus das Potential ei- 
ner ertragreichen Zusammenarbeit haben. 


3 Methodologische Implikationen und 
philologische Vorannahmen: Stilometrie und 
Textinterpretation 


Doch Fragestellungen, die über die reine Autorschaftsattribution hinausreichen, 
sind selten oder werden lediglich in einem Ausblick angerissen.” Für die Inter- 
pretation literarischer Texte ist die Zuschreibung des Autors letztlich nur eine 


30 Ebd. 

31 Vgl. ebd., S. 219. 

32 Vgl. ebd., S. 220f. 

33 Einen ersten Feldversuch einer stilometrisch gestützten deutschen Literaturgeschichts- 
schreibung unternehmen Jannidis und Lauer. Ihre Aussagen über ein Gelingen sind vorsichtig 
optimistisch: »For the first time, a quantitative approach can work on large corpora and we ex- 
pect that literary historians will appreciate these new research possibilities«. Jannidis, Lauer: 
»Burrows’s Delta and Its Use in German Literary History«, S. 49. Martin Becker u. a. versuchen 
sich an einer engeren Gattungsklassifikation des deutschen Romans vom 16. bis zum 20. Jahr- 
hundert, die über den Kanon hinausgehen und eine Perspektive für eine Gattungsgeschichts- 
schreibung etwa hinsichtlich narrativer Techniken und Themen bieten soll. Vgl. Martin Becker, 
Lena Hettinger, Andreas Hotho, Fotis Jannidis und Isabella Reger: »Genre Classification on Ger- 
man Novels«, in: Proceedings of the 12" International Workshop on Text-based Information Re- 
trieval (2015), http://www.uni-weimar.de/medien/webis/events/tir-15/tir15-papers-final/Het 
tinger2015-tir-paper.pdf (31.10.2017, 15.41 Uhr). Einen kleinen Ausblick zur Relevanz stilometri- 
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Vorstufe, an die es mit hermeneutischen Fragestellungen anzuknüpfen gilt. Als 
Beispiel dafür lohnt ein systematischer Blick auf den Aufsatz »Collaborative Au- 
thorship: Conrad, Ford and Rolling Delta«. 

Rolling Delta ist eine Variation herkömmlicher stilometrischer Clusteranaly- 
sen, die besonders geeignet ist, um kollektive Autorschaft zu identifizieren. Die 
Ähnlichkeitssignale werden dementsprechend nicht hierarchisch, sondern in ei- 
nem Verlaufsdiagramm abgebildet. Ähnlichkeiten und Differenzen ermittelt Rol- 
lin Delta in Abhängigkeit von einem Referenztext.” Die computergestützte Stilo- 
metrie besitzt eine Vielzahl frei wählbarer Parameter, die ihr einerseits eine große 
Freiheit einräumen, andererseits aber eine exakte Dokumentation und eine sys- 
tematische Überprüfung der Resultate erfordern. Das gilt insbesondere für offene 
Forschungsfragen, die im Gegensatz zur Autorschaftsattribution nur wenige Hin- 
weise liefern, ob die Berechnungen nachvollziehbare Ergebnisse erzielen. Evi- 
dent ist dann vielfach das Ergebnis, das die eigene These stützt.” Auf diese Weise 
wird die Ausgangsthese zum Gradmesser der Funktion stilometrischer Analysen. 
Man spricht hierbei vom sogenannten »Cherry-Picking<-Problem.* 

Die drei wichtigsten Parameter, die es auszuwählen und zu begründen gilt, 
sind das Textkorpus, das Distanzmaß und die Anzahl der zur Berechnung heran- 
gezogenen »most frequent words (mfw). Es gibt noch keinen Konsens darüber, 
welche Distanzmaße und Parameter die Funktion stilometrischer Analysen best- 
möglich absichern. Theoretische und empirische Argumente divergieren oft- 
mals.” Mehr noch wird in der Forschung häufig die Ansicht vertreten, dass jedes 


scher Methoden für die Literaturwissenschaft liefert Schöch im Fazit seiner Studie Corneille, Mo- 
liere et les autres: »Ebenso interessant scheint mir, die Ergebnisse computergestützter Klassifi- 
kationsverfahren (insbesondere, wenn der Faktor des individuellen Autors ausgeklammert wer- 
den könnte), mit etablierten Gattungs- und insbesondere Untergattungs-Klassifikationen zu 
vergleichen. Hier wird es dann auch für die Literaturgeschichtsschreibung interessant: Gerhard 
Lauer und Fotis Jannidis haben kürzlich bereits festgestellt, dass es beispielsweise um 1800 eine 
Gruppe weiblicher Autoren gibt, deren Texte von stilometrischen Verfahren nicht mit einer der 
etablierten Autorengruppen der Zeit assoziiert werden, sondern eine eigene Gruppe bilden, die 
bisher von der Literaturgeschichte gar nicht als solche wahrgenommen worden ist.« Schöch: 
»Corneille, Moliére et les autres«, S. 152. 

34 Vgl. Hoover, Kestemont, Rybicki: »Collaborative Authorship«, S. 425f. 

35 Vgl. Maciej Eder: »Computational Sylistics and Biblical Translation: How Reliable Can a Den- 
drogram Be?«, in: The Translator and the Computer, hg. v. Tadeusz Piotrowski und Lukasz 
Grabowski. Breslau 2013, S. 155-170, hier 159, 161 und Juola: »The Rowling Case«, S. 102. 

36 Vgl. Juola: »The Rowling Case«, S. 110 und Eder, Maciej: » Visualization in Sylometry: Cluster 
Analysis Using Networks«, in: Digital Scholarship in the Humanities 32.1 (2017), S. 50-64, hier 52. 
37 Vgl. Stefan Evert, Fotis Jannidis, Steffen Pielström, Thomas Proisl, Isabella Reger, Christoph 
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Korpus in Abhängigkeit der Forschungsfrage ganz eigene Einstellungen benö- 
tige. Den Analysen fehlt also noch ein »generally accepted theoretical frame- 
work«.” 

Hoover, Kestemont und Rybicki entscheiden sich für Burrows’s Delta als Dis- 
tanzmaß, das seit 2002 als ein wichtiger Standard der Stilometrie gilt.“ Das Dis- 
tanzmaß gewichtet die normalisierten Wortfrequenzen und berechnet ein soge- 
nanntes Delta, das die Ähnlichkeit der Texte relativ zum gewählten Textkorpus 
anzeigt.“ Die Anzahl der Wörter, die für die Berechnung herangezogen werden, 
beschränken Hoover, Kestemont und Rybicki auf die 1000 »most frequent words«. 
Das scheint für das Distanzmaß Burrows’s Delta durchaus eine sinnvoll gewählte 
Größe zu sein, wie Stefan Evert u. a. erörtern: Burrows’s Delta performe am bes- 
ten bei Umfangen zwischen 1000 und 1500 »most frequent words«.” Eine Begrün- 
dung über Vergleichsdaten anderer Wortumfänge wäre gleichwohl dennoch 
wünschenswert, da schon kleinste Abstufungen zu deutlich divergierenden Re- 
sultaten führen können.” So sind es vor allem die impliziten Standards der Au- 
torschaftsattribution, auf die Hoover, Kestemont und Rybicki vertrauen. 


Schöch und Thorsten Vitt: »Understanding and Explaining Delta Measures for Authorship At- 
tribution«, in: Digital Scholarship in the Humanities (2017), S. 1-13, hier 11f. 

38 Vgl. Schöch: »Corneille, Moliére et les autres«, S. 142. 

39 Kestemont: »Function Words in Authorship Attribution«, S. 59. 

40 Vgl. Jannidis, Lauer: »Burrows’s Delta and Its Use in German Literary History«, S. 32. 

41 Für eine sehr genaue Aufarbeitung von Burrows’s vgl. Jannidis: »Der Autor ganz nah«, 
S. 183-189. 

42 Vgl. Evert, u.a.: »Understanding and Explaining Delta Measures for Authorship Attribu- 
tion«, S. 5. 

43 Dazu Eder: »Visualization in Sylometry«, S. 54: »Cluster analysis using [...] 136 MFWs [...] 
reveals a perfect authorial recognition, but when 137 MFWs are used, the cluster for Joseph Con- 
rad is split into two parts and remains detached (along many other substantial rearrangements 
of the corpus) until the same corpus is assessed at 969 MFWs«. 
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Abbildung 1 zeigt zwei gegentibergestellte Clusteranalysen, die sich lediglich im 
Distanzmaß unterscheiden und die Problematik des »Cherry-Pickings< explizie- 
ren. Die stilometrische Analyse selbst gibt keine Hinweise auf die Plausibilität der 
hierarchischen Darstellung. Erst der Abgleich mit literaturgeschichtlich gesicher- 
tem Wissen erlaubt es, die linke der beiden Grafiken als nachvollziehbarere zu 
bewerten. Da die Autoren der realistischen Erzähltexte bekannt sind und das Ziel 
der stilometrischen Analyse die Wiedergabe von Autorsignalen ist, wird für die- 
ses Textkorpus deutlich, dass Burrows’s Delta (links) bessere Ergebnisse erzielt 
als das euklidische Distanzmaß (rechts). 

Auch die Auswahl des Textkorpus ist zentral für die Plausibilität der Erge- 
bnisse, wie Juola pointiert darlegt: »No matter how large the control sample, Mar- 
lowe would still probably have written Shakespeare’s plays if the alternatives 
were Maureen Dowd, Paul Krugman, and Mark Bittman (all bloggers for the New 
York Times)«.“ Wichtig ist es deshalb ein Vergleichskorpus zu finden, das mit 
dem zu untersuchenden Text beziehungsweise dessen Urheber in Entstehungs- 
zeit, Gattung, Sprache, Region und Geschlecht größtmöglich übereinstimmt. 

Entsprechend philologisch begründet leiten Hoover, Kestemont und Rybicki 
in ihre Untersuchung kollektiver Autorschaft ein: »The story of the notable liter- 
ary collaboration between Joseph Conrad (1857-1924) and Ford Madox Ford 
(1873-1939) dates back at least to September 1898, the date of the first meeting 
between the two writers.«“ Sie ziehen sodann historische Kontexte heran, die die 
Schreib- und Lebenssituation der beiden Autoren Joseph Conrad und Ford Madox 
Ford näher situieren.“ Das Textmaterial, das den Ausgangspunkt für die Uberle- 
gung einer stilometrischen Analyse darstellt, beschreiben Hoover, Kestemont 
und Rybicki wie folgt: 


[T]he duo managed to produce three acknowledged collaborative novels: The Inheritors 
(1901), Romance (1903), and The Nature of a Crime (1909, 1924). And their story is made even 
more interesting by various authorship claims by Ford, including those concerning a frag- 
ment of Nostromo (1904) and the dramatization of Conrad’s To-morrow (1901-2), One Day 
More (1904). Of course, physical evidence about authorship is complicated by the fact that 
Ford (and others, including John Galsworthy) took Conrad’s dictation when he was sick or 
indisposed or could not make a deadline; hence pages have been preserved in Ford’s and 
others’ handwriting of works of otherwise unquestioned Conrad’s authorship.“ 


44 Juola: »The Rowling Case«, S. 106. 

45 Hoover, Kestemont, Rybicki: »Collaborative Authorship«, S. 422. 
46 Vgl. ebd., S. 422f. 

47 Ebd., S. 423. 
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Den ausschlaggebenden Antrieb fiir die Analyse liefern Selbstaussagen von Ford 
und Conrad hinsichtlich ihrer Zusammenarbeit, die sich etwa auf Schreibanteile 
an verschiedenen Texten oder ihre jeweiligen Rollen als Autor, Ideengeber oder 
Lektor beziehen. Fords genaue Beteiligung an Nostromo etwa wird von Xavier 
Brice als widersprüchlich geschildert.“*. Zwei Textausschnitte, der erste aus ei- 
nem Brief Fords an George T. Keating,“ der zweite aus Return to Yesterday: Remi- 
niscences of James, Conrad & Crane,” dienen als Belegstellen. Der Widerspruch 
entsteht allerdings auch durch eine verkürzte Darstellung, die Fords frühere Aus- 
sage aus dem Zusammenhang herauslöst, wodurch eine weitaus größere Kluft 
zwischen den zwei Passagen entsteht.” In seinem Brief an Keating formuliert 
Ford 1923 (1925): 


The circumstances in which I wrote that small portion of NOSTROMO [...] are very simple 
and explicable. [...] But to argue from that that I had any large share in Conrad’s writing 
would be absurd. I may have written ten thousand words that I remember and could place 
my finger on fairly substantial passages and perhaps another twenty thousand that I re- 
member only faintly and should find difficult to trace.” 


Diesen schon gekürzten Textausschnitt verknappen Hoover, Kestemont und 
Rybicki weiter. Sie beschränken sich dabei auf den zweiten mit »I may [...]« ein- 
geleiteten Abschnitt, in dem Ford die eigene quantitative Schreibleistung heraus- 
stellt. Ohne die Einschränkung, dass seine Beiträge keinen großen Anteil an Con- 
rads Text hätten, bleibt mit insgesamt 30000 Wörtern, die Ford beigesteuert 
haben will, — darunter wesentliche Textpassagen — der Eindruck zurück, dass 
Nostromo zu den kollektiv verfassten Texten zu zählen sei und Ford entsprechend 
einen erheblichen Teil dazu beigetragen habe. Was Brice als »air of arrogant 
flippancy«° bezeichnet, ist gleichwohl im gesamten Zitat Fords zu vernehmen. 


48 Xavier Brice: »Ford Madox Ford and the Composition of Nostromo«, in: The Conradian 29.2 
(2004), S. 75-95. 

49 Brief zitiert nach John Hope Morey: Joseph Conrad and Ford Madox Ford: A Study in Collab- 
oration. Ithaca, NY 1960, S. 120f. 

50 Ford, Ford Madox: Return to Yesterday: Reminiscences of James, Conrad & Crane (1931). New 
York 1972, S. 189f. 

51 Vgl. das nachfolgende Zitat mit Hoover, Kestemont, Rybicki: »Collaborative Authorship«, 
S. 424. 

52 Die Jahreszahl ist nicht gesichert. Es könnte auch 1925 gewesen sein. Vgl. Brice: »Ford Madox 
Ford and the Composition of Nostromo«, S. 79. 

53 Brief zitiert nach Morey: Joseph Conrad and Ford Madox Ford, S. 120f. 

54 Brice: »Ford Madox Ford and the Composition of Nostromo«, S. 80. 
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Indem Ford sein Zutun relativiert, erscheint jedoch zumindest die Arroganz ge- 
dämpft. Den Widerspruch zur zweiten, späteren Aussage Fords, den Hoover, 
Kestemont und Rybicki erkennen wollen, konstruieren sie also letztlich selbst. 
Acht (oder sechs) Jahre später äußert sich Ford nämlich folgendermaßen: 


What I actually wrote into Conrad’s books was by no means great in bulk and was usually 
done when he was too ill to write himself and had to catch up with serial publication. [...] 
But, indeed, the importance of the passages I did write was so negligible, and they them- 
selves were so frequently emended out ofsight that they could not make as much difference 
to the completion and glory of his prose as three drops of water poured into a butt of Malm- 
sey.” 


Der Vergleich dreier Tropfen Wasser in einem großen Fass Malvasier mit der Be- 
deutung der Passagen, die Ford zu Conrads Buch beigesteuert habe, zeigt ein- 
drücklich, was Brice mit »Ford is careful to play down his collaborative role«”* 
meint. Eine gewisse kritische Distanz sollte bei solchen Selbstaussagen®” - zu 
welchem Zweck schreibt Ford seine Memoiren? — zwar immer mitschwingen, der 
postulierte Widerspruch der beiden Textpassagen aber, und das ist ausschlagge- 
bend für die daran anschließende stilometrische Studie von Hoover, Kestemont 
und Rybicki, scheint nur eingeschränkt gültig zu sein. Denn auf diese Weise 
schreiben sie implizit ein zusätzliches Spannungsmoment in die Fragestellung 
ein: Ist Nostromo als kollektiver Text zu werten? Und welche Äußerung Fords ist 
letztlich glaubwürdiger? Die eigentlich exoterisch formulierte Fragestellung ist 
dagegen weit weniger festgelegt: »This study tries to find the drops of Ford’s wa- 
ter in Conrad’s Malmsey, or vice versa«.’® 

Um mit der Hilfe stilometrischer Analysen tatsächlich forschungsrelevante 
Ergebnisse zu erzielen, sind also zwei Punkte entscheidend. Einerseits gilt es, die 
Auswahl der Parameter zu dokumentieren und zu begründen - auch, um die Re- 
produzierbarkeit der Ergebnisse zu gewährleisten. Andererseits ist die exakte 
philologische Vorarbeit zentral, um ertragreiche Fragestellungen zu generieren 
und diese auf ein gut gewähltes Textkorpus anzuwenden. Was sind aber die Er- 
gebnisse, die die computergestützten stilometrischen Analysen bei Hoover, 
Kestemont und Rybicki abbilden? Die drei kollektiv geschriebenen Texte von 


55 Ford: Return to Yesterday, S. 189f. 

56 Brice: »Ford Madox Ford and the Composition of Nostromo«, S. 80. 

57 Das zeigt Brice etwa an der von Ford aufgerufenen Wortzahl, die selbst im für Ford bestmög- 
lichen Auslegungsfall vorhandener und möglicherweise fehlender Manuskripte nicht über 5000 
Wörtern liegen dürfte. Vgl. ebd. Brice kommt sogar zu dem Schluss, dass Conrad diese Ford dik- 
tiert habe. Vgl. ebd., S. 92. 

58 Hoover, Kestemont, Rybicki: »Collaborative Authorship«, S. 424. 
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Conrad und Ford gruppieren sich nicht einheitlich. Wahrend sich Romance zu 
Texten von Conrad ordnet, finden sich The Inheritors und Nature of a Crime im 
Umfeld von Fords Texten. Die nähere Analyse lässt plausibel beobachten, dass 
The Inheritors zum größten Teil, wie vorab angenommen,” von Ford geschrieben 
ist. 


Ford’s style [...] dominates over that of Conrad’s - with some exceptions. There are several 
short glimpses of Conradian style in the middle of Chapter 4, reminiscent of Chance |...]; a 
section at the onset of Chapter 11 [...]. The only more extensive fragment in The Inheritors 
with a stronger Conradian signal combines Chapters 16 and 17 [...].°° 


Mit ihren Rolling Delta-Diagrammen können Hoover, Kestemont und Rybicki re- 
lative stilistische Ähnlichkeiten der beiden Autoren im Verhältnis zu The Inheri- 
tors abbilden. Da die horizontale Achse die lineare Abfolge des Textes in 5000 
Wortschritten wiedergibt, können stilistische Übereinstimmungen verschiede- 
nen Kapiteln zugeordnet werden. 

Die detaillierten Analysen zu Nature of a Crime und Romance erlauben es, 
einzelne Textpassagen aufgrund quantitativ erfasster Signale je einem der beiden 
Autoren zuzuordnen. So überwiegt etwa in Romance das Autorsignal Joseph Con- 
rads.“ Bei Nostromo ergeben sich jedoch keine stilometrisch gestützten Eviden- 
zen, die nahe legen würden, dass Ford signifikant zum Text beigetragen habe. 
Das ist letztlich keine Überraschung, da die Hypothese zu großen Teilen aufeiner 
fehlerhaften Auslegung von Fords Selbstaussagen gründet. Hoover, Kestemont 
und Rybicki konstatieren dazu abschließend: 


Fig. 5 tests the hypothesis that Ford did indeed contribute in any significant way to Conrad’s 
Nostromo but provides little to support it: Conrad’s style dominates Ford’s throughout. This 
time, contrarily to the diagrams for The Inheritors and The Nature of a Crime, and in a much 
stronger way that in Romance, the signal of almost all Conradian texts is stronger than that 
of almost all texts by Ford throughout the course of the novel [...].° 


Mit den Resultaten liefert die Studie nach eigener Aussage »a confirmation of the 
usual (if uncertain) consensus about the proportions of the styles of both writers 
in their three collaborations«.” 


59 Vgl. ebd., S. 423. Ford habe den größten Teil selbst geschrieben, jedoch ausführlich mit Con- 
rad besprochen. 

60 Ebd., S. 427f. 

61 Vgl. Hoover, Kestemont, Rybicki: »Collaborative Authorship«, S. 428. 

62 Ebd., S. 429. 

63 Ebd. 
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Hoover, Kestemont und Rybicki ergänzen die Debatte um Ford und Conrad 
somit — ganz im Sinne von Matthew Jockers — um eine neue, quantitative Blick- 
richtung. Der intrinsische Wert ihrer Erkenntnisse ergibt sich aus den zusatzli- 
chen Evidenzen, die philologischen Argumenten beigefiigt werden. Eine herme- 
neutische Fragestellung, die dezidiert an die stilometrische Analyse anschließt, 
die sie im besten Fall sogar anleitet, liegt jedoch nicht vor. Aus Sicht der Litera- 
turwissenschaft müssten die Ergebnisse einer stilometrischen Analyse gleich- 
wohl nicht nur dargelegt, sondern ebenfalls interpretiert werden. Der Aufsatz 
»Collaborative Authorship: Conrad, Ford and Rolling Delta« ist dafür aus mehre- 
ren Griinden ein hervorragendes Beispiel. Erstens existiert die aufgegriffene For- 
schungsfrage nach dem Verhältnis kollektiver Autorschaft in den Texten von 
Ford und Conrad in der Anglistik schon lange. Brices Aufsatz »Ford Madox Ford 
and the Composition of Nostromo« steht dafür exemplarisch ein.“ Hoover, Keste- 
mont und Rybicki greifen entsprechend eine philologische Fragestellung auf und 
versuchen der Debatte mit Hilfe quantitativer Methoden neue Impulse zu verlei- 
hen. Fishs generalisierter Vorwurf, dass Interpretationsthesen im Feld computer- 
gestützter Textanalyseverfahren nur zufällig durch die Spielerei mit Datenmen- 
gen zu finden sind, läuft damit ins Leere.“ Stilometrische Analysen, das zeigt der 
behandelte Aufsatz mit seinen Ergebnissen, lassen sich somit erfolgreich an ent- 
sprechend gebaute philologische Probleme andocken. Von entscheidendem In- 
teresse ist indes aber der umgekehrte Fall: Wie können hermeneutische Frage- 
stellungen wiederum an die stilometrische Analyse anknüpfen? Erneut verhilft 
das betrachtete Beispiel zu einer Annäherung: Die Belege für Conrads editorische 
Eingriffe in The Inheritors und The Nature of Crime und die Entkräftung der Selbst- 
aussage Fords, er habe 30000 Wörter zu Nostromo beigesteuert, sind Bestätigung 
der getesteten Thesen. Sie liefern dadurch aber zugleich interpretatorische Leer- 
stellen. Zum Verständnis hilft ein Blick auf die Perspektive, aus der die jeweilige 
Untersuchung durchgeführt wurde. Hoover, Kestemont und Rybicki greifen die 
Debatte um die Zusammenarbeit von Conrad und Ford auf. In diesen werden 
Texte und Kontexte — das können biographische Notizen wie in Fords Memoiren, 
aber auch Briefe, Vergleichstexte und im Fall von Nostromo die 16 handschriftlich 


64 Siehe auch Raymond Brebach: »Conrad, Ford and the »Romance« Poem« in: Modern Philol- 
ogy 81.2 (1983), S. 169-172. 

65 Selbst die durch »Spielerei« erreichte Wahl des Forschungsobjektes wäre indes vertretbar. 
Vgl. dazu Max Weber: Wissenschaft als Beruf, in: Max Werber. Schriften 1894-1922, hg. v. Dirk 
Kaesler. Stuttgart 2002, S. 474-511, hier 483. Gemäß Weber verdankt die Wissenschaft viele ihrer 
besten Problemstellung Dilettanten, denen eine feste Arbeitsmethode fehle und die die Trag- 
weite ihres Einfalls nicht nachvollziehen könnten. 
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überlieferten Textblätter, die Ford geschrieben hat, sein“ - einer Mikroanalyse, 
dem »close reading«, unterzogen. Das mit quantitativen Methoden erarbeitete Er- 
gebnis zeichnet wiederum ein »big picture«. Der Vergleich zieht das Erzähltext- 
korpus von Ford und Conrad zu Rate und stützt sich auf eine stilometrische 
Makroanalyse.” Die Leerstellen, die die Resultate der Makroanalyse durch ihre 
Belege erzeugen, sind aber mikroanalytischer Natur. Das heißt, dass es gerade 
die »close reading<-Methoden traditionell gearteter Literaturwissenschaft sein 
müssten, die das volle Potential der Makroanalyse überhaupt erst entfalten. Die 
Eigenart der postulierten Leerstellen ist der Grund für diesen Schluss. 

Was sind nun diese interpretationsbedürftigen Leerstellen? Durch die nach- 
vollziehbare Zuordnung der Texte zu einem der beiden Autoren, ja sogar die Zu- 
ordnung einzelner Teilkapitel zum je dominanten Schreibstil, ergeben sich für 
die hermeneutische Textarbeit neue Grundlagen, die weitere Fragen anregen. Da 
die Aufarbeitung der Ford- beziehungsweise Conrad-Forschung nicht Ziel dieses 
Aufsatzes sein kann, sind die anschließenden Folgerungen als hypothetisches 
Gedankenexperiment zu werten. 

Gibt es erstens historische Indizien oder Belege - diese können biographi- 
scher Natur sein, aber etwa auch verschiedene Stufen der Textgenese umfassen 
-, die erst durch das Vorwissen einer erfolgreichen Attribution einen Mehrwert 
generieren und so der Textinterpretation beigestellt werden können? Lassen sich 
zweitens Fords handschriftlich überlieferte Textabschnitte in Nostromo den stilo- 
metrischen Signalen zuordnen? Können also stilistische Ausschläge in den Dia- 
grammen plausibel philologisch kontextualisiert und interpretiert werden? Sind 
durch die Eingrenzung auf gewisse Textabschnitte drittens auch Brüche im »close 


66 Brice rechnet in seinem Aufsatz vor, wie die 16 überlieferten Blätter zustande kommen. Die 
Seitenzahlen machen deutlich, dass insgesamt von 23 Blättern in Fords Handschrift auszugehen 
ist. Vgl. Brice: »Ford Madox Ford and the Composition of Nostromo«, S. 75-79. 

67 An dieser Stelle hätte, anknüpfend an den Begriff »close readings, ebenso von »distant rea- 
ding die Rede sein können. Da ich die von Franco Moretti unter diesem Begriff mitgeprägte Po- 
lemik nicht mittragen möchte, verzichte ich hier auf die Nennung. Vgl. Franco Moretti: »Conjec- 
tures on World Literature. My Mission: To Say it More Simply than I Understand it. Schönberg, 
Moses and Aaron«, in: New Left Review 1 (2000), S. 54-68, hier 57. Was Moretti als »distant read- 
ing: bezeichnet, nennt Jockers »macroanalysis«. Den Begriff entlehnt er der Ökonomie: »By way 
of an analogy, we might think about interpretive close-readings as corresponding to microeco- 
nomics while quantitative macroanalysis corresponds to macroeconomics. [...] I prefer the term 
macroanalysis over distant-reading. The former term places the emphasis on the quantifiable 
methodology over the more interpretive practice of »reading«.« Matthew L. Jockers: On Distant 
Reading and Macroanalysis, 01.07.2011, http://www.matthewjockers.net/2011/07/01/on-dis 
tant-reading-and-macroanalysis/ (06.04.2017). Vgl. auch Jockers: Macroanalysis, S. 24-26. 
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reading: wahrnehmbar, die einerseits noch nicht wahrgenommen wurden, ande- 
rerseits einen Autorwechsel wahrscheinlich machen? Und was ändert sich ab- 
schließend für die Interpretation der Texte, wenn wir die einzelnen Textteile den 
Autoren zuordnen können? Ließe sich eine für Ford und Conrad differenzierte 
Autorintention rekonstruieren und beurteilen? Wäre das überhaupt sinnvoll? 
Teilbereiche dieser aufgeführten Fragestellungen ließen sich wiederum 
durch digitale Methoden der Textanalyse ergänzen. Ein realisierbarer Ansatz 
könnte sein, Jockers’ Idee einer quantitativen Bestimmung für Stimmungs- und 
Handlungsbögen des englischsprachigen Romans anzuwenden.‘ Aus seiner 
Stimmungs- und Handlungsanalyse von 41383 Romanen - Handlung fasst er für 
diese Untersuchung mit den Worten Genettes heuristisch als »discours< — leitet 
Jockers sechs beziehungsweise sieben Handlungsarchetypen ab, die er als Stim- 
mungskurven repräsentiert. Dafür nutzt er eine semantische Wortfeldanalyse, 
die letztlich durch eine graduelle Einordnung einzelner Begriffe als »positiv« oder 
‚negativ« eine Kurve erzeugt. Potentiell ließe sich durch die so geartete quantita- 
tive Erfassung der Romane von Ford und Conrad eine Differenzbildung hinsicht- 
lich der Stimmung einzelner Textabschnitte vornehmen, die dann vor dem Hin- 
tergrund der stilometrischen Analyse zu bewerten und einzuordnen sind. 


4 Forschungsperspektiven 


Das exemplarisch aufgeführte und skizzierte Beispiel der stilometrischen Ana- 
lyse von Hoover, Kestemont und Rybicki sollte dazu dienen, das hermeneutische 
Anschlusspotential stilometrischer Analysen über die Autorschaftsattribution 
hinaus darzulegen. Ich habe das als Andocken hermeneutischer Fragestellung 
an die im Vorfeld durchgeführte Attribution gefasst und als eine Option für die 
weiterführende und auf quantitativen Analysen basierende Textinterpretation 
benannt. Maßgeblich dafür ist die Operationalisierung literarischer Konzepte. 
Hoover, Kestemont und Rybicki schlagen diese Richtung in Teilen ein: Sie opera- 
tionalisieren das Konzept kollektiver Autorschaft. Die automatisch aus der Prob- 


68 Das von Jockers zur Verfügung gestellte Syuzhet Package für R ist ein interessantes Tool zur 
‚sentiment«-Bestimmung für quantitativ arbeitende Literaturwissenschaftler. Vgl. Jockers, Mat- 
thew L.: Revealing Sentiment and Plot Arcs with the Syuzhet Package, 02.02.2015, 
http://www.matthewjockers.net/2015/02/02/syuzhet/ (06.02.2017) und Matthew L. Jockers: The 
Rest of the Story, 25.02.2015, http://www.matthewjockers.net/2015/02/25/the-rest-of-the-story/ 
(30.10.2017). 
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lemannäherung entstehenden Implikationen betrachten sie aber nicht. Sie zie- 
hen weder konkrete Rtickschliisse noch benennen sie Forschungsperspektiven. 
Die Annäherung ist also rein technisch oder, mit literaturwissenschaftlichem Vo- 
kabular beschrieben: rein methodisch.“ 

Eine weitere Möglichkeit, die darauf abzielt, stilometrische Analysen für die 
Interpretation literarischer gewinnbringend einzusetzen, ergibt sich durch eine 
methodische Umkehr in der Anwendung stilometrischer Analysen. Ist davon aus- 
zugehen, dass computergestützte stilometrische Analysen eine ausreichend 
hohe Trefferquote bei der Attribution von Text zu Autor oder von Text zu Epoche 
haben - und damit implizit von Autor zu Epoche -, kann dieses Wissen einge- 
setzt werden, um Ziel und Ausgangspunkt der Analyse zu tauschen. Ausgangs- 
punkt der bisher betrachteten Studien, die sich stilometrischer Analysen zur Au- 
torschaftszuschreibung bedienen, ist ein Text, dessen Autor mit herkömmlichen 
philologischen Methoden nicht eindeutig zu bestimmen ist. Ziel war es, den Text 
einem Autor aus einer Reihe zuvor erörterter Kandidaten der Wahrscheinlichkeit 
nach zuzuschreiben. Als Methode wurden dafür stilometrische Analysen genutzt. 

Was passiert aber, wenn die Ausgangssituation gesichert ist, die Analyse 
dementsprechend bereits vermeintlich gesichertes Wissen untersucht? Einerseits 
lässt sich auf diese Weise die Funktion stilometrischer Analysen, etwa die Frage 
nach der optimalen Wahl verschiedener Parameter, überprüfen. Andererseits 
sind es gerade die potentiellen Dissonanzen einer solchen Analyse, die interes- 
sante Forschungsperspektiven aufwerfen könnten. Wie ist etwa die Epochenzu- 
ordnung eines Autors auf Grundlage relativer stilometrischer Abgrenzung zu be- 
werten? Relevanz hat diese Frage gerade dann, wenn die Analyse bis dato 
gängige Ex-post-Zuschreibungen nicht bestätigt. Gleiches gilt für aktuell unge- 
klärte oder kontroverse Zuschreibungen - an dieser Stelle wohlgemerkt keine Zu- 
schreibung von Text zu Autor -, die durch stilometrische Clusteranalysen mit an- 
dersgearteten Argumenten aus neuer Blickrichtung betrachtet werden können. 
Ein prominentes Beispiel sind die Texte Heinrich von Kleists, der mit ihrer bestür- 
zenden Andersartigkeit und Modernität die Grenzen seiner Zeit weit überschrit- 
ten habe:’® 


69 Vgl. Thaller: »Digitial Humanities als Wissenschaft«, S. 13f. Werkzeug und Methode fallen 
hier jedoch zusammen. Generell beschreibt Thaller quantitative Verfahren als methodenneutral, 
die Forschungsgegenstände auch unter unveränderter Methodologie intensiver und gründlicher 
untersuchen könnten. Vgl. ebd., S. 15, 18. 

70 Vgl. Marie Haller-Nevermann und Dieter Rehwinkel: »Einleitung. Kleist - ein moderner Auf- 
klärer?«, in: Kleist - ein moderner Aufklärer?, hg. v. dens. Göttingen 2005, S. 9-12, hier 9f. 
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Wie kaum ein anderer vermochte er, die Phänomene des Lebens in ihrer Ambivalenz dar- 
zustellen, er der Aufklärungsskeptiker, der Dichter des Unbewussten, der doch in so hohem 
Maße ein bewusster, ein aufgeklärter Schriftsteller war, von einem nicht mehr zu überbie- 
tenden Formwillen getragen.” 


Die von Marie Haller-Nevermann und Dieter Rehwinkel gezeichnete Ambivalenz 
findet sich ebenso in der Epochenzuschreibung Heinrich von Kleists wieder. 
Kleist gilt als Grenzgänger zwischen den Epochen.” Folgerichtig versucht etwa 
Anke Bennholdt-Thomsen »Kleists Standort zwischen Aufklärung und Roman- 
tik« auszumachen. Als Fragestellung formuliert sie ganz generell die »richtige 
Einordnung des Dichters in die Literaturgeschichte und ihre Epochen«.” Die Fra- 
gestellung lässt sich sogar auf einzelne Textgattungen und Untergattungen zu- 
spitzen. Orientiert sich Kleist mit seinen Dramen am Sturm und Drang, orientiert 
er sich direkt an Shakespeare oder aber am bürgerlichen Trauerspiel? Seine Kon- 
zeption der Figurenrede scheint jedoch nicht auf eindeutige literarische Vorbil- 
der rückführbar zu sein.” 

Anders als bei den vorgestellten Studien zu Hildegard von Bingen und Gui- 
bert de Gembloux sowie Ford Madox Ford und Joseph Conrad ist das Interesse 
der Fragestellung in Nils Reiters und Marcus Willands Aufsatz »Geschlecht und 
Gattung. Digitale Analysen von Kleists »Familie Schroffenstein«« durch eine of- 
fene Problemstellung geleitet. Ziel ist es nicht empirisch darzulegen, dass Der zer- 
brochene Krug eine Komödie oder Penthesilea eine Tragödie ist. Die im Aufsatz 


71 Ebd., S.9. 

72 Jens Ewen schreibt dazu: »Die literaturgeschichtliche Verortung Heinrich von Kleists ist seit 
jeher heftig umstritten. Sein Werk, so vielgestaltig es ist, scheint sich den gangigen literaturge- 
schichtlichen Kategorien zu entziehen. Kleist ist weder ein richtiger Aufklärer noch ein vollgül- 
tiger Romantiker, und er lässt sich auch keiner anderen Strömung sinnvoll zuordnen.« Jens 
Ewen: »Periodisierungsprobleme zwischen Aufklärung und Romantik - am Beispiel Heinrich 
von Kleists«, in: Aufklärung und Romantik. Epochenschnittstellen, hg. v. Daniel Fulda, Sandra 
Kerschbaumer und Stefan Matuschek. Paderborn 2015, S. 87-100, hier 89. Dazu auch Helga Gal- 
las: »Kleists Welt im Vergleich zur Dominanz des Imaginären in der Romantik und zur Inflation 
des Realen in der Postmoderne«, in: Heinrich von Kleist, hg. v. Ortrud Gutjahr. Würzburg 2008, 
S. 279-295, hier 279: »Mich hat immer beschäftigt, dass Kleists Werk in der Literaturgeschichte 
eine so offensichtliche Ausnahmestellung innehat: es passt weder zur Klassik noch zur Roman- 
tik, einerseits gilt es als äußerst modern und auf das 20. Jahrhundert Kafkas weisend, anderer- 
seits als konservativ und anti-aufklärerisch, dem 18. Jahrhundert verhaftet.« 

73 Anke Bennholdt-Thomsen: »Kleists Standort zwischen Aufklärung und Romantik. Ein Bei- 
trag zur Quellenforschung«, in: Kleist - ein moderner Aufkldrer?, hg. v. Marie Haller-Nevermann 
und Dieter Rehwinkel. Göttingen 2005, S. 13-40, hier 13. 

74 Vgl. Nils Reiter und Marcus Willand: »Geschlecht und Gattung. Digitale Analysen von Kleists 
‚Familie Schroffenstein««. In: Kleist-Jahrbuch (2017), S. 177-195, hier 190. 
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erläuterte Gattungsklassifikation wird viel eher als makroanalytischer Befund ge- 
wertet, die eine Aussage über das Gattungsbewusstsein Kleists erlaubt.” Dement- 
sprechend ist auch die Intention der Analyse formuliert: 


Vielmehr ermöglicht die Digitalisierung sehr großer Dramen-Korpora eine komparative 
Neuperspektivierung einzelner dramatischer Texte und erlaubt es, auf einem alternativen 
Weg bisher kaum feststellbare dramenhistorische Einflussbeziehungen offenzulegen oder 
aber Einflusshypothesen zu konterkarieren.” 


Einflussbeziehungen und Auswahlkriterien sind es auch, die Thomas Weitin für 
den Deutschen Novellenschatz nachzeichnet. Er orientiert sich dabei an der Maß- 
gabe von Paul Heyse und Hermann Kurz, die die Textauswahl des von ihnen her- 
ausgegebenen Deutschen Novellenschatzes »nach »Ton«, also nach dem Stil der 
Texte« begründen.” Die Zusammenstellung des Novellenschatzes »nach den 
Prinzipien von Distinktivität und Relationalität« versucht Weitin mit stilometri- 
schen Ansätzen abzubilden,” um an schon entwickelte literaturhistorische und 
-theoretische Probleme anzuschließen.” Mit Blick auf die literaturgeschichtliche 
Problemstellung der insgesamt 86 Novellen, die zwischen »massenhafter Ähn- 
lichkeit« einerseits sowie »der stilorientierteln] Zusammenstellung nach den 
Prinzipien von Distinktivität und Relationalität« andererseits verlaufen, hält 
Weitin das stilometrische Delta-Verfahren für historisch plausibel einsetzbar.*° 
Die Heyse zuteil gewordene Charakterisierung als »Virtuose des Durch- 
schnitts< spiegelt sich im stilometrischen Ähnlichkeitsverhältnis seiner Novelle 
zum übrigen Textkorpus des Novellenschatzes wider. Sowohl Heyse als auch 
Heinrich Zschokke und Karl Immermann seien sehr »korpusähnlich und mithin 
durchschnittlich auf das Ganze gesehen«.*! Literarische Texte werden in diesem 
Fall nicht mehr zu Autoren oder verschiedenen Gattungen geordnet, sondern 
nach einem nicht weiter spezifizierten Ähnlichkeitssignal, das normalerweise 
von Autor- oder Gattungssignalen überlagert werden würde. Dieses Vorgehen ge- 


75 Vgl. ebd., S. 194. 

76 Ebd., S. 178 

77 Thomas Weitin: »Selektion und Distinktion. Paul Heyses und Hermann Kurz’ Deutscher No- 
vellenschatz als Archiv, Literaturgeschichte und Korpus«, in: Archiv/Fiktionen. Verfahren des Ar- 
chivierens in Literatur und Kultur des langen 19. Jahrhunderts, hg v. Daniela Gertz und Nicolas 
Pethes. Freiburg, Berlin, Wien 2016, S. 385-408, hier 394. 

78 Ebd., S. 396. 

79 Vgl. ebd., S. 395. 

80 Ebd., S. 396. Vgl. auch S. 402. 

81 Ebd, S. 403. 
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lingt, da nur sehr vereinzelt mehrere Novellen des gleichen Autors in den Deut- 
schen Novellenschatz aufgenommen wurden. Hierin wird eine Limitierung stilo- 
metrischer Analysemethoden implizit nachvollziehbar. Die Resultate basieren 
stets auf einem Vergleichskorpus. Literaturtheoretische Fragen, die nicht explizit 
das Verhältnis literarischer Texte zu ihren jeweiligen Autoren, Gattungen oder 
Epochen zu ergründen suchen, benötigen eine dieser Limitierung geschuldete 
Modellierung. Letztlich versuchen auch die Experimente Weitins Gemeinsamkei- 
ten innerhalb eines Textkorpus ausfindig zu machen. Es scheinen Gemeinsam- 
keiten zu sein, die etwa einen Teil der 86 Novellen als sehr korpusähnlich und 
somit »besonders durchschnittlich aufs Ganze gesehen« auszeichnen. Dagegen 
sind andere, so argumentiert Weitin, dem Gros des Korpus weit weniger ähnlich, 
könnten aber dennoch gruppenbildend wirken. 


5 Zusammenfassung 


Die Ausführungen versuchen darzulegen, dass die Stilometrie auch über die Au- 
torschaftsattribution hinaus Potentiale für einen genuin literaturwissenschaftli- 
chen Einsatz besitzt. Die Operationalisierung literarischer Konzepte mit Hilfe der 
Stilometrie unterliegt jedoch einigen Einschränkungen. Denn stilometrische 
Analysen bilden immer relative Ähnlichkeiten oder Unterschiede ab, die in Ab- 
hängigkeit vom gewählten Textkorpus zu interpretieren sind. Die Fragestellung 
muss diesem relativen Umgang mit dem Untersuchungsgegenstand entspre- 
chend gewählt sein. Neben einer hypothesengeleiteten Verwendung der Stilo- 
metrie - sei es, um bestätigende Evidenzen abzubilden oder um Reibungspunkte, 
die zu relevanten Fragestellungen führen, überhaupt erst zu entdecken - ist so- 
mit ein methodisch reflektiertes Vorgehen unerlässlich. Schließlich ist die Zahl 
der zur Berechnung herangezogenen Parameter, etwa Wortumfang oder Distanz- 
maß, groß und sie beeinflussen die Ergebnisse der Analyse immens. Da offene 
Forschungsfragen — anders als die Autorschaftsattribution, die eine Tatsa- 
chenanalyse ist — selbst nur wenige Anhaltspunkte geben, ob die Berechnungen 
nachvollziehbare Ergebnisse erzielen, wird vielfach das Ergebnis als evident be- 
wertet, das die eigene These belegt und die Ausgangsthese wird zum Gradmesser 


82 Ebd., S. 400. 
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der Funktion stilometrischer Analysen.® Soll die Stilometrie also nachvollzieh- 
bare Evidenzen schaffen, dürfen Studien nicht nur auf implizite Standards der 
Autorschaftsattribution vertrauen. Die Untersuchungen sollten stattdessen von 
einer Methodendiskussion begleitet werden, die die Ergebnisse kontextualisiert 
und ihre Reproduzierbarkeit ermöglicht. 
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Gegenwärtige Herausforderungen literaturwissenschaftlicher 
Netzwerkanalysen 


Abstract: For some time now, Social Network Analysis (SNA) has become a highly 
relevant procedure in digital figure analysis. This method offers a completely new 
approach to texts, allowing networks of figures, historical structural shifts, and 
the development of genres to be elucidated and visualised on the basis of quan- 
titative analyses of extensive corpora. In the present paper, this is illustrated us- 
ing accounts of journeys through Italy during the 18% and 19" centuries. Quanti- 
tative analysis, however, requires both an extensive corpus and high-quality 
digitised texts. Yet there is still much work to be done in this area: the present 
situation is marked by a scarcity of digitised works, an even greater scarcity of 
full-text versions, and a lack of research funding - especially for smaller projects. 
In order for quantitative methods such as Literary Network Analysis to yield reli- 
able and illuminating results, coordinated and extensive efforts are first required 
to make the relevant source material digitally accessible and usable. 


Einleitung 


Jeffrey A. Rydberg-Cox forderte bereits im Jahr 2006 in seinem Werk Digital Libra- 
ries and the Challenges of Digital Humanities eine digitale Bibliothek, die dem Li- 
teraturwissenschaftler einen gänzlich neuen Blick auf dessen Materialgrundlage 
ermöglichen soll: 


More importantly, tools and techniques that have been designed by scholars in the human- 
ities to work with electronic texts allow readers to ask and answer questions about texts 
that they simply could not pose using traditional printed materials.' 


1 Jeffrey A. Rydberg-Cox: Digital Libraries and the Challenges of Digital Humanities. Oxford 2006, 
Saf 
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Die Anwendung bereits entwickelter Programme kann neue Perspektiven auf 
Texte eröffnen. Doch neben guter Software - sei es für Named Entity Recognition, 
Visualisierungen, stilometrische Analysen etc. — wird zunächst eine gute Daten- 
grundlage benötigt: gute Scans als Basis zuverlässiger Volltexte und möglicher- 
weise auch eine strukturell sowie semantisch tiefgehende Erschließung. 

Nachfolgend soll ein Überblick gegeben werden, inwiefern besonders die 
Social Network Analysis (SNA) und darauf aufbauende Visualisierungen für 
literaturwissenschaftliche Fragestellungen fruchtbringend eingesetzt werden 
können. Mit den über Jahrhunderte hinweg immer wieder neu verfassten Italien- 
Reiseberichten wird ein Anwendungsbeispiel dieser Methode vorgestellt. Gleich- 
zeitig werden gegenwärtige Umsetzungsschwierigkeiten quantitativer Analysen 
in der Literaturwissenschaft dargelegt, die unter anderem auf infrastrukturelle 
Probleme zurückzuführen sind: Die geringe Anzahl gut aufbereiteter Digitalisate 
stellt den Forscher vor Herausforderungen, die im Rahmen von Einzelprojekten 
bislang weder zeitlich noch monetär bewältigt werden können. Zuletzt sollen 
Handlungsempfehlungen abgeleitet werden, die die gegenwärtige Situation ver- 
bessern könnten: Wie kann bereits im Digitalisierungsschritt dazu beigetragen 
werden, dass computergestützte Auswertungs- und Analyseverfahren auf den 
Text anwendbar sind - und der Wissenschaftler entlastet wird? Wie kann ermög- 
licht werden, jene Forschungsfragen häufiger zu stellen, zu denen das gedruckte 
Werk schweigt? 


1 Ansätze einer literaturwissenschaftlichen 
Netzwerkanalyse 


Vielfach wird moniert, quantitative Analysen würden nicht viel Neues zutage för- 
dern und seien redundant: Bereits 1962 behauptete Arthur Schlesinger Jr.: »As a 
humanist, Iam bound to reply that almost all important questions are important 
precisely because they are not susceptible to quantitative answers.«* Fast 50 
Jahre später kritisiert Kathryn Schulz in ihrem Artikel für die New York Times 
diese vermeintliche Trivialität der Ergebnisse ebenso, wenn sie sich auf Morettis 
soziale Netzwerkanalyse des Hamlet bezieht: 


2 Arthur M. Schlesinger Jr.: »The Humanist Looks at Empirical Social Research«, in: American 
Social Review (1962), S. 768-771, hier S. 770. 
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I mostly vacillated between two reactions: »Huh?« and »Duh!« — sometimes in response to 
a single sentence. For example, Moretti [...] means the protagonist is the character with the 
smallest average degree of separation from the others, »the center of the network.« So guess 
who’s the protagonist of Hamlet? Right: Hamlet. Duh.? 


Sicher, den Protagonisten von Shakespeares Hamlet zu identifizieren, scheint un- 
spektakulär — wird er doch bereits im Titel genannt. Auch das Projekt von Martin 
Grandjean kommt zu teils vorhersehbaren Ergebnissen: Er stellt mithilfe der Vi- 
sualisierungssoftware Gephi‘ die Figurenkonstellationen in Shakespeare’s Tra- 
södien dar - in größerem Stil als Moretti. Grandjean verknüpft zwei Figuren, 
wenn sie in derselben Szene vorkommen, und erhält aussagekräftige Netzwerke.’ 


x 


\ Capulet 


ws a Oe e 


Abb. 1: Grandjean: Shakespearean Tragedy. Romeo and Juliet. CC-BY-SA Martin Grandjean 
2015, http://www.martingrandjean.ch/wp-content/uploads/2015/12/ShakespeareTrag 
edy.png (18. Juni 2017). 


3 Kathryn Schulz: »What is Distant Reading?«, in: The New York Times 24. Juni 2011, 
http://www.nytimes.com/2011/06/26/books/review/the-mechanic-muse-what-is-distant-rea 
ding.html (18. Juni 2017); siehe auch: Peer Trilcke: »Social Network Analysis (SNA) als Methode 
einer textempirischen Literaturwissenschaft«, in: Empirie in der Literaturwissenschaft, hg. v. Phi- 
lip Ajouri, Katja Mellmann und Christoph Rauen. Miinster 2013, S. 201-247, hier S. 203. 

4 Gephi, https://gephi.org/ (18. Juni 2017). 

5 Vgl. Martin Grandjean: Shakespearean Tragedy, http://www.martingrandjean.ch/wp-con 
tent/uploads/2015/12/ShakespeareTragedy.png (18. Juni 2017). Analysen zur titelgebenden Fi- 
gur in Dramen auch in Marcus Willand und Nils Reiter: »Geschlecht und Gattung. Digitale Ana- 
lysen von Kleists Familie Schroffenstein«, in: Kleist-Jahrbuch (2017), S. 177-195. 
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So können die Familien Montague und Capulet in Romeo und Julia ebenso auf 
einen Blick erkannt und als Cluster identifiziert werden, wie Coriolanus im 
gleichnamigen Shakespeare-Stück als Protagonist heraustritt. 

Ergebnisse einer solchen literaturwissenschaftlichen Netzwerkanalyse, von 
Peer Trilcke kurz als »liNA« bezeichnet,° scheinen zwar trivial, doch sie decken 
sich mit dem Werkverständnis des Forschers. Sie sind die Voraussetzung für 
komplexere Analysen, deren Textbasis der Literaturwissenschaftler nur noch 
schwer überschauen kann. So ist eine vermeintliche Eindeutigkeit der Bezie- 
hungsstrukturen bei den wenigsten Werken gegeben’ und gerade die Beleuch- 
tung vielschichtiger Konstellationen kann für literaturgeschichtliche, gattungs- 
oder erzähltheoretische Fragestellungen hoch relevant sein. 

Die liNA ermöglicht die Einnahme einer gänzlich neuen Perspektive auf die 
entsprechenden Texte und ist eine gewinnbringende Weiterentwicklung der 
klassischen Figurenkonstellation: Knotenpunkte — Personennamen, Orte etc. — 
und Relationen - beispielsweise Familienbeziehungen oder das gemeinsame 
Auftreten in einer Szene - können herausgefiltert werden. Damit ist auch der um- 
fangreichste Plot strukturierbar. Mit der liNA ist auf Figurenebene das leistbar, 
was Moretti »distant reading« nennt: Durch Abstraktion kann die Perspektive auf 
das Textmaterial erweitert werden.’ Frank Fischer et al. zeigen diesen Mehrwert 
einer distanzierten Betrachtung beispielhaft, wenn sie einen historischen Struk- 
turwandel im deutschen Drama angesichts der steigenden Figurenanzahl seit 
circa 1740 ausmachen.’ 

Ähnlich aufschlussreich können Visualisierungen sein, welche die räumli- 
che und/oder zeitliche Dimension in ihre Darstellung einbeziehen. Eine Visuali- 
sierungssoftware wie Gephi kann dem gerecht werden, indem die Darstellung mit 


6 Ebd., S. 201. 

7 Evelina Gabasovas Projekt zeigt eine weitere beispielhafte Anwendung und stellt die kompli- 
zierten Figurenkonstellationen in den Star Wars-Folgen dar. Vgl. dies.: Star Wars social net- 
works: The Force Awakens, http://evelinag.com/blog/2016/01-25-social-network-force-awa 
kens/ (18. Juni 2017). 

8 Franco Moretti: Graphs, Maps, Trees. Abstract Models for a Literary History. London, New York 
2005, S. 1f. Besonders die automatische Extrahierung von Personennamen kann problematisch 
sein, wenn beispielsweise dieselbe Person in unterschiedlichen Schreibweisen erwähnt wird, 
die OCR fehlerhaft ist etc. Hier sind eine manuelle Prüfung und/oder der kritische Blick auf Un- 
gereimtheiten unerlässlich. 

9 Vgl. Frank Fischer, Dario Kampkaspar und Peer Trilcke: Digitale Netzwerkanalyse dramati- 
scher Texte. Vortrag auf der Dhd. Graz 2015, http://gams.uni-graz.at/o:dhd2015.v.040 (18. Juni 
2017). 
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Timelines oder geografischen Karten unterlegt wird. So sind beispielsweise so- 
wohl die räumliche Abgrenzung gegenüber anderen im Text erwähnten Gruppen 
als auch die Entwicklung von Clustern darstellbar. Barbara Piatti geo-referen- 
ziert zudem im Rahmen ihres Projekts Ein literarischer Atlas Europas" literarische 
Handlungsräume. An den Beispielen Nordfriesland, Prag und Vierwaldstätter- 
see/Gotthard werden Orte aus entsprechenden Prosatexten auf realen Karten ab- 
gebildet.” So können diese multidimensional konzipierten Visualisierungen, 
transparent eingebettet in ihren spezifischen Kontext, wertvolle Impulse geben:” 
Fragen nach den Bewegungsmustern der Figuren, nach Dynamiken, präferierten 
Schauplätzen etc., sind möglich. Piatti begreift ihre Methode dabei als »Ideenge- 
nerator und Impulsgeber«': Zwar werde natürlich immer wieder der Einwand er- 
hoben, fiktionale Räume seien nicht aufrealen Karten abbildbar und die Referen- 
zierungen daher per se fehlerhaft, doch konstatiert Piatti, dass es weder unserer 
Leseerfahrung noch unserem Lesebedürfnis entspreche, Fiktionen nicht in Bezug 
zu unserer Realwelt zu setzen: »Literaturkartographie tut explizit nur das, was 
ohnehin im Produktions- und Rezeptionsprozess laufend stattfindet. Sie syste- 
matisiert diese Bezüge und macht sie für Interpretationen fruchtbar.«" Diese In- 
terpretationen ersetzen könne und solle die Methode natürlich nicht. 

Eine solche Visualisierung ist daher alles andere als nur ein »Nice-to-have«. 
Sie ist vielmehr eine Technik, Korpora großflächig zu analysieren, und sie 
schließt eine »>Small-Data-Analyse« keineswegs aus - im Gegenteil. Die Kombina- 
tion digitaler und klassisch-hermeneutischer Methoden kann Interferenzen 
sichtbar machen, die durch die traditionelle Textanalyse eines einzelnen Wissen- 
schaftlers mit entsprechend begrenzten zeitlichen Ressourcen in diesem Umfang 
kaum identifizierbar wären. Gerade durch das Herauskristallisieren von Struktu- 
ren, »Löchern«, Ungereimtheiten oder Traditionssträngen mithilfe der liNA kann 
der Blick überhaupt erst auf die besonders interessanten Texte bzw. Textstellen 
gerichtet werden. Der Forscher wird so in die Lage versetzt, kanonisch gewordene 
Forschungsparadigmen kritisch zu hinterfragen - und sich neuen Zugängen zu 
öffnen. 


10 ChantalM. Weber: Kulturhistorische Netzwerkanalyse. Am Beispiel des japanischen Tee-Meis- 
ters Kanamori Söva. Würzburg 2011, S. 129. 

11 Barbara Piatti: Ein Literarischer Atlas Europas, http://www.literaturatlas.eu (18. Juni 2017). 
12 Barbara Piatti: »/om Text zur Karte - Literaturkartographie als Ideengenerator«, in: Karto- 
graphisches Denken, hg. v. Christian Reder. Wien 2012, S. 269-279, hier S. 272. 

13 Edward Tufte: The visual display of quantitative information. Cheshire, CT 2002, S. 10. 

14 Piatti: »Vom Text zur Karte - Literaturkartographie als Ideengenerator«, S. 274. 

15 Ebd., S. 276. 
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Die gegenwartig fiir traditionell arbeitende Literaturwissenschaftler oft so 
avantgardistisch wie gewagt erscheinende Einbeziehung digitaler Techniken 
— automatische Texterkennung, Visualisierung oder die Auszeichnung via XML - 
in die wissenschaftliche Analyse bzw. in den alltäglichen Workflow ist zudem al- 
les andere als neu: Tabellen, Landkarten, Stammbäume, Register etc. sind nichts 
anderes als Abstraktionen, die bereits seit Jahrhunderten etabliert sind - und 
sich bisher in den wenigsten Fällen den Vorwurf der Unwissenschaftlichkeit ge- 
fallen lassen mussten." Beispielsweise nutzten bereits Georges-Lois Leclerc Buf- 
fon und Frederic Cuvier im Jahr 1755 derartige Strukturierungen, um die Entwick- 
lung von Hunderassen zu systematisieren.” 

Netzwerke sind, im Gegensatz zu Tabellen o. Ä., Kulturtechnik"® und Visuali- 
sierungsmethode zugleich: Sie sind ein soziales Phänomen, und noch dazu ein 
sehr aktuelles angesichts der Entwicklung umfassender sozialer Netzwerke im 
Web 2.0. Möglicherweise liegt genau hierin der Rechtfertigungsdruck begründet: 
Performanz und Abbildung scheinen verquickt. Doch können Visualisierungen 
tatsächlich den Anspruch erheben, soziale Netzwerke vollumfänglich abzubil- 
den? 

Befreit man sich von dieser Ambition und erkennt an, dass die Abbildung 
erzählter sozialer Netzwerke nur eine mögliche Repräsentanz der dargestellten 
Beziehungen ist, kann die jeweilige Visualisierung als durchaus produktiv 
erkannt werden. Denn die Datenaufbereitung und -darstellung ist ebenso von In- 
terpretationen und (mitunter subjektiven) Entscheidungen abhängig wie jede an- 
dere wissenschaftliche Methode - und hierzu zählt auch die klassische Herme- 
neutik. Um diesbezügliche Verfälschungen so gering wie möglich zu halten, sind 
eine genaue Dokumentation des Vorgehens und die Bereitstellung klarer Meta- 
daten sowie idealerweise auch semantisch angereicherter Texte unerlässlich — 
ganz nach Barbra Piattis Forderung: »Man muss nur sehr genau wissen, was man 
tut, und sagen, dass man es tut.«”” 


16 Marten Düring und Florian Kerschbaumer: »Quantifizierung und Visualisierung. Anknüp- 
fungspunkte in den Geschichtswissenschaften«, in: Handbuch Historische Netzwerkforschung. 
Grundlagen und Anwendungen, hg. v. ders., Ulrich Eumann, Martin Stark und Linda Keyserlingk. 
Berlin 2016, S. 31-42, hier S. 40f. 

17 Georges-Lois Leclerc Buffon und Frederic Cuvier: »Table de l’ordre des Chiens (1755)« [Die 
Ordnungstafel der Hunde], in: General Research Division. The New York Public Library (1829- 
1832), http://digitalcollections.nypl.org/items/510d47d9-7893-a3d9-e040-e00a18064a99 

(18. Juni 2017); auch in: Sebastian Gießmann: Netze und Netzwerke. Archäologie einer Kulturtech- 
nik, 1740-1840. Bielefeld 2006, S. 40. 

18 Vgl. ebd. 

19 Piatti: »Vom Text zur Karte - Literaturkartographie als Ideengenerator«, S. 276. 


Forschung benötigt Forschungsinfrastrukturen — 321 


2 Fallbeispiel: Berichte von Italien-Reisen 


Nachfolgend soll eine für die liNA prädestinierte Projektidee vorgestellt werden: 
Die Netzwerke Bildungsreisender, die über die Jahrhunderte hinweg ihre Erleb- 
nisse, Begegnungen und Reiserouten verschriftlichten und literarisch ausgestal- 
teten. 

Nach den »Grand Tours: des Adels und dem anschließenden Aufstieg des 
Bürgertums wird gerade Italien ein Anziehungspunkt für Reisende.” Besonders 
Rom wird zu einem prominenten Anlaufpunkt für Schriftsteller, bildende Künst- 
ler und andere Intellektuelle, die einen multiplizierenden Fffekt haben. Sie tref- 
fen sich in der Stadt und bilden Gruppen, in denen Sie diskutieren und sich über 
Erlebnisse und Fachwissen austauschen. Rom stellt zu dieser Zeit den idealen Ort 
für eine »Künstlerrepublik« dar.” Es entwickelt sich eine deutsche Kolonie in den 
Fremdenhäusern vor allem um den Spanischen Platz; Gemeinschaft wird zele- 
briert.” 

»Räume des Wissens — was und wo sind sie?«, fragt Mitchell Ash in einem 
Beitrag, dem »Spacial Turn< der Sozial- und Kulturwissenschaften verpflichtet.” 
Besonders das Italien des 19. Jahrhunderts kann folglich als ein solcher Raum 
bezeichnet werden. Wissen zirkuliert, Gespräche über Bildung und Kunst, so der 
Akzent der Forschung hierzu, sind zentrale Anliegen der Zusammenkünfte, die 
in Rom gepflegt werden: Anzuführen sind beispielsweise Treffen in der Villa 
Malta, die Ponte-Molle-Gesellschaft™ sowie Intellektuellenzirkel im Antico Caffè 


20 Albert Meier: »Von der enzyklopädischen Studienreise zur ästhetischen Bildungsreise. Ita- 
lienreisen im 18. Jahrhundert«, in: Der Reisebericht. Die Entwicklung einer Gattung in der deut- 
schen Literatur, hg. v. Peter J. Brenner. Frankfurt a. M. 1989, S. 284-305, hier S. 285 und 291. 

21 Stefan Oswald: »Deutsche Künstler in Rom: Künstlerrepublik und christlicher Kunstverein«, 
in: Rom - Paris - London. Erfahrungen und Selbsterfahrungen deutscher Schriftsteller und Künst- 
ler in den fremden Metropolen, hg. v. Conrad Wiedemann. Stuttgart 1988, S. 260-273. 

22 Ursula Peters: »Das Ideal der Gemeinschaft«, in: Künstlerleben in Rom. Bertel Thorvaldsen 
(1770-1844). Der dänische Bildhauer und seine deutschen Freunde, hg. v. Gerhard Bott und Heinz 
Spielmann. Nürnberg 1991, S.157-188, hier S.158; Christina Ujma und Rotraut Fischer: 
»Deutsch-Florentiner. Der Salon als Ort italienisch-deutschen Kulturaustausches im Florenz der 
zweiten Hälfte des 19. Jahrhunderts«, in: Europa — ein Salon? Beiträge zur Internationalität des 
literarischen Salons, hg. v. Roberto Simanowski, Horst Turk und Thomas Schmidt. Göttingen 
1999, S. 127-146. hier S. 127. 

23 Vgl. Mitchell G. Ash: »Räume des Wissens — was und wo sind sie? Einleitung in das Thema«, 
in: Berichte zur Wissenschaftsgeschichte 23 (2000), S. 235-242; Jörg Döring und Tristan Thiel- 
mann: Spatial Turn. Das Raumparadigma in den Kultur- und Sozialwissenschaften. Bielefeld 2008. 
24 Friedrich Noack: Deutsches Leben in Rom 1700 bis 1900. Stuttgart, Berlin 1907, S. 218-294. 
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Greco.” Neben Galerien und Museen avancieren Cafes, Gasthäuser und private 
Villen zu »Räumen des Wissens«.” Bereits die Anreise selbst wird meist in Grup- 
pen vorgenommen oder zumindest in Begleitung eines Cicerones — eines Frem- 
denführers. Beispielsweise brechen im Mai 1805 der Schriftsteller Ludwig Tieck, 
der Bildhauer Friedrich Tieck, der Kunsthistoriker Carl Friedrich von Rumohr und 
die Brüder Riepenhausen, Maler und Kupferstecher, gemeinsam nach Italien auf. 
Auch Musiker reisten gen Süden, so beispielsweise Felix Mendelssohn Bartholdy 
oder Otto Nicolai. 

Diese sozialen Erfahrungen spiegeln sich in den Berichten wider: Regelmä- 
Bige Treffen beschreibt beispielsweise die deutsch-dänische Schriftstellerin Frie- 
derike Brun und erwähnt in ihrem Bericht Römisches Leben die Gesellschaft des 
Prinzen Friedrich von Sachsen-Gotha - »Akademie« genannt. Sie beschreibt mu- 
sikalische Aktivitäten und geladene römische Gäste in der Villa Malta.” »Hubs« — 
Kulturträger mit zentralen Positionen innerhalb der Gruppe - bilden sich her- 
aus.” Doch auch ganz private Zusammenkünfte werden in den Berichten be- 
schrieben wie beispielsweise der von Brun erzählte Besuch bei der deutschen Ma- 
lerin Angelika Kaufmann.” 

Der wohl bekannteste Reisebericht dieser Zeit ist die epochemachende Itali- 
enische Reise Johann Wolfgang von Goethes. Darin werden Treffen in Kunstgale- 
rien” ebenso beschrieben wie abendliche, eher intime Malzirkel in einem Gast- 
haus: »Sobald die stattliche Wirtin [...], >Felicissima notte!< gesagt hat, 
versammelt sich alles im Kreise und legt die Blätter vor, welche den Tag über ge- 
zeichnet und skizziert worden«.”' Werner Gephart interpretiert die Italienische 
Reise Goethes explizit als »soziologische[n] Erfahrungsraum« — zwischen »Aus- 
gangsgesellschaft«, »Reisegesellschaft« und »bereiste[r] Gesellschaft«.* 


25 Linda M. Piitter: Reisen durchs Museum. Bildungserlebnisse deutscher Schriftsteller in Italien 
1770-1830. Hildesheim 1998, S. 143; Paolo Chiarini und Walter Hinderer: »Vorbemerkung«, in: 
Rom - Europa, hg. v. dies., Würzburg 2006, S. 9-13, hier S. 11. 

26 Vgl. auch Martine Heßler: »Wissenschaftsstädte - Zur Bedeutung des Topos der »kreativen 
Stadt: für die Wissensproduktion«, in: Berichte zur Wissenschaftsgeschichte 30 (2007), S. 145- 
160, hier S. 146. 

27 Friederiken Brun: Römisches Leben. Leipzig 1833 (Bd. 2), S. 228. 

28 Weber: Kulturhistorische Netzwerkanalyse. Am Beispiel des japanischen Tee-Meisters Ka- 
namori Söva, S. 128. 

29 Brun: Römisches Leben, S. 25. 

30 Johann W. von Goethe: »Italienische Reise«, in: Goethes Werke, Bd. 11: Autobiographische 
Schriften III, hg. v. Erich Trunz. Hamburg !°1974, S. 126-129. 

31 Ebd, S. 135. 

32 Werner Gephart: Goethe als Gesellschaftsforscher und andere Essays zum Verhältnis von Sozi- 
ologie und Literatur. Berlin 2008, S. 72f. 
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Auffällig ist, dass sich die Voyageure des 18. und 19. Jahrhunderts in recht 
homogenen Gruppen zu organisieren scheinen: Es sind vor allem andere Bil- 
dungsreisende, die kontaktiert werden. Zudem sind es künstlerisch-kulturelle 
Themen, welche die Zusammenkünfte in den Berichten dominieren. Sie tragen 
offensichtlich stark zur Gruppenbildung bei; die eigene Bildung und Fremdheit 
wird möglicherweise zur Bedingung der Gruppenzugehörigkeit.” 

Viele dieser Themen wurden bereits mehr oder weniger von der Forschung 
aufgegriffen: Ab der zweiten Hälfte des 20. Jahrhunderts werden Berichte italie- 
nischer Reisen zunehmend in den Blick genommen und vor allem unter epochen- 
und gattungsgeschichtlichen Gesichtspunkten analysiert.” Auch Studien zu rö- 
mischen Künstlerzirkeln liegen bereits vor.” 

Aktuell werden vor allem soziale Netzwerke untersucht, die sich seit Ende 
der Frühen Neuzeit in Rom formierten: Karl S. Rehberg beschäftigt sich mit den 
Netzwerken deutscher und französischer Künstler in Rom.” Mit der Datenbank 
Zuccharo wird Das Künstlerviertel um die piazza di Spagna” in topographischer 
Hinsicht analysiert, in den Musikwissenschaften ist das Projekt Europäische Mu- 
siker in Venedig, Rom und Neapel (1650-1750)* zu nennen. 

Zu konstatieren ist, dass sich hier ein vielfältiges Forschungsfeld eröffnet, 
das nur teilweise gut erschlossen ist und trotz oder gerade aufgrund der Promi- 
nenz einzelner kanonischer Texte noch immer brachliegt® — und dies, obwohl 


33 Hierzu beispielsweise Peter J. Brenner: »Die Erfahrung der Fremde. Zur Entwicklung einer 
Wahrnehmungsform in der Geschichte des Reiseberichts«, in: Der Reisebericht. Die Entwicklung 
einer Gattung in der deutschen Literatur, hg. v. ders. Frankfurt a. M. 1989, S. 14-49; Urs Bitterli: 
»Der Reisebericht als Kulturdokument«, in: Geschichte in Wissenschaft und Unterricht 24 (1973), 
S. 555-564; Dirk Kemper, Aleksej Zherebin und Iris Bäcker: Eigen- und Fremdkulturelle Literatur- 
wissenschaft. München 2010. 

34 Vgl. William E. Stewart: Die Reisebeschreibung und ihre Theorie im Deutschland des 18. 
Jahrhunderts. Bonn 1978; Irmgard Egger: Italienische Reisen. Wahrnehmung und Literarisierung 
von Goethe bis Brinkmann. München 2006; Peter J. Brenner (Hg.): Der Reisebericht. Die Entwick- 
lung einer Gattung in der deutschen Literatur. Frankfurt a. M. 1989. 

35 Ursula Peters: »Das Ideal der Gemeinschaft«, S. 157-188. 

36 Karl-Siegbert Rehberg: »Roma capitale delle arti. Transzendenzraum und Kunstkonkurren- 
zen«, in: Transzendenz und die Konstitution von Ordnungen, hg. v. Hans Vorländer. Berlin 2013, 
S. 66-93. 

37 Bibliotheca Hertziana: Zuccharo, http://zuccaro.biblhertz.it/portale-und-projektseiten/das- 
kunstlerviertel-um-die-piazza-di-spagna (18. Juni 2017). 

38 Musici. Europäische Musiker in Venedig, Rom und Neapel (1650-1750), http://www.mu 
sici.eu/ (18. Juni 2017). 

39 Thorsten Fitzon: Reisen in das befremdliche Pompeji. Antiklassizistische Antikenwahrneh- 
mung deutscher Italienreisender 1750-1870. Berlin, New York 2004, S. 15f. 
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die Zahl der verlegten Reiseberichte immens ist und sicher großflächiger er- 
schlossen werden könnte. Allein Stefanie Kraemer und Peter Gendolla stellen 260 
Italien-Reisebeschreibungen aus dem 18. bis 20. Jahrhundert zusammen.“ Trotz 
dieses Reichtums und des offensichtlich großen Interesses an weiterführender 
Erschließung existieren bisher noch keine literaturwissenschaftlichen, auf digi- 
talen Methoden basierenden Forschungsprojekte, welche die literarische Gestal- 
tung der Netzwerke deutscher Autoren abzubilden versuchen - oder die Analy- 
sen gar auf weitere Städte als Rom ausweiten. 

Vor dem Hintergrund der sehr umfassenden Netzwerke, die einerseitsin den 
Reisetexten beschrieben werden und die sich andererseits zwischen den einzel- 
nen Berichten entspinnen, könnte gerade die Durchführung einer liNA, gepaart 
mit literaturkartografischen Methoden wie sie Piatti vornimmt, für dieses Korpus 
mehr als prädestiniert sein. So könnten die sozialen Verbindungen, Handlungs- 
räume, Cluster etc. der Berichtenden in Gesamtitalien und einzelnen Städten - 
allen voran in Rom als Reiseziel und Aufenthaltsort - offengelegt werden. 

Gerade aufgrund der Vielzahl und Dichte der Texte sind die gestellten Fragen 
rund um die Reisetradition mit herkömmlichen, rein hermeneutischen Methoden 
nur punktuell beantwortbar. Die digitale Erschließung sämtlicher Berichte (gege- 
benenfalls mit einer Named-Entity-Recognition-Software), deren Aufbereitung 
und semantische Auszeichnung in XML sowie die daran anschließende Netz- 
werk- und Raum-Visualisierung mit einer entsprechenden Software könnte, um 
mit Piatti zu sprechen, als »Ideengenerator und Impulsgeber«“ fungieren und 
Unklarheiten beseitigen: Wer trifft wen, wie oft und wo? Welche Kunstwerke und 
Gebäude sind wann besonders prominent? Welche (Wissens-) Räume formieren 
sich? Wie werden gleiche Gruppen aus unterschiedlichen Blickwinkeln bzw. 
Netzwerkpositionen heraus beschrieben? Welche Gattungsveränderungen kön- 
nen ausgemacht werden? Und wie changiert der »Reisebericht« erzähltheoretisch 
über die Zeiten hinweg zwischen autobiografischem bzw. faktualem und fiktio- 
nalem Erzählen? 

In der digitalen Aufbereitung des Quellenmaterials liegt noch ein weiterer 
Vorteil: Die Anknüpfbarkeit an die anderen oben genannten Forschungsprojekte 
und damit die Vernetzungsmöglichkeit innerhalb der Fachgemeinschaft: Die 
Veröffentlichung von Materialien und Ergebnissen auf einer Onlineplattform 


40 Stefanie Kraemer und Peter Gendolla: Italien. Eine Bibliographie zu Italienreisen in der deut- 
schen Literatur. Frankfurt a. M. 2003; verwiesen sei auch auf Lucia Tresoldi: Viaggiatori tedeschi 
in Italia 1452-1870. Saggio bibliografico. Rom 1975 (2 Bd.). 

41 Piatti: »Vom Text zur Karte - Literaturkartographie als Ideengenerator«, S. 274. 
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könnte die öffentliche Nutzung sowie Langzeitverfügbarkeit der Daten ermögli- 
chen.“ Entsprechende CC-BY-Lizenzen gewährleisten die Verbreitung und Nach- 
nutzbarkeit der Forschungsergebnisse. 

Was fehlt, sind folglich »nur noch« die digital vorliegenden Reiseberichte; 
und zwar nicht nur als Scans in Frakturschrift, sondern als maschinell verarbeit- 
bare Volltexte. Sie wären der erste Schritt in die digitale Analyse - und sind das 
erste Hindernis, an dem sie bisher noch scheitern muss. 


3 Zugänglichkeit des Forschungsmaterials 


Im Jahr 1997 wurden die beiden deutschen Digitalisierungszentren, das Münche- 
ner Digitalisierungszentrum (MDZ) und Göttinger Digitalisierungszentrum (GDZ), 
eingerichtet. Das »Fernziek der Staats- und Universitätsbibliothek Göttingen ist 
ambitioniert: »eine vollständige »World Digital Library (WDL)«, in der ortsunab- 
hängig alle jemals gedruckten Informationen abrufbar sind«.“* Auch die Bemü- 
hungen der seit 2009 existierenden Deutschen Digitalen Bibliothek sind ein über- 
aus wichtiger Beitrag zur Vernetzung digital erfasster Medien der einzelnen 
Bibliotheken. Bund, Länder und Kommunen unterstützen die Plattform mit fi- 
nanziellen Aufwendungen für Infrastrukturen, den Betrieb sowie für Sonderpro- 
jekte zur Digitalisierung von Kulturgut.“ Europaweit sind in diesem Zusammen- 
hang zudem die Anstrengungen der Österreichischen Nationalbibliothek“‘ sowie 
der Bibliothèque nationale de France” zu nennen. Das Internet Archive“ bietet be- 
reits ein reiches Angebot an digitalisierten deutschsprachigen Texten. Dennoch: 
Der Digitalisierungsprozess ist an den einzelnen Institutionen, wie den Zentren 
in Göttingen oder München, angesiedelt. Hier werden sie hergestellt, bevor sie 


42 PeterL. Shillingsburg: From Gutenberg to Google. Electronic Representations of Literary Texts. 
Cambridge 2006, S. 12. 

43 Niedersächsische Staats- und Universitatsbibliothek Göttingen: Göttinger Digitalisierungs- 
zentrum. Kopieren & Digitalisieren, http://www.sub.uni-goettingen.de/kopieren-digitalisie 
ren/goettinger-digitalisierungszentrum/ (18. Juni 2017). 

44 Ebd. 

45 Monika Griitters: Deutsche Digitale Bibliothek, https://www.bundesregierung.de/Webs/ 
Breg/DE/Bundesregierung/BeauftragtefuerKulturundMedien/medien/dtDigitaleBibliothek/_no 
de.html (18. Juni 2017). 

46 Osterreichische Nationalbibliothek: Leitbild, https://www.onb.ac.at/ueber-uns/leitbild/ 
(18. Juni 2017). 

47 Gallica. Bibliothéque nationale de France, http://gallica.bnf.fr/ (18. Juni 2017). 

48 Internet Archive, www.archive.org (18. Juni 2017). 
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deutschland- bzw. europaweit vernetzt werden können - und hier beginnt die 
Reise des Digital Humanist — des Literaturwissenschaftlers, dessen Korpus meh- 
rere Hundert oder Tausend Texte umfasst: Er durchforstet die digitalen Bibliothe- 
ken, Archive und Zentren. Er findet einige Digitalisate, verstreut in den entspre- 
chenden Institutionen - doch bei Weitem nicht alle. Denn nur ein Bruchteil der 
gesuchten Werke ist bereits digitalisiert worden. 


3.1 Erstes Hindernis: Wenige Digitalisate 


Digitalisierungen werden bisher bedarfsorientiert angefertigt. Die anberaumte 
»World Digital Library< ist erstrebenswert, liegt aber noch in weiter Ferne. Welche 
Texte sind also bereits verfügbar? Jene bekannter Autoren. Doch auch Reise- 
Schriftsteller außerhalb der Goethe-Familie zeichnen mit ihren Berichten die Ent- 
wicklung einer Gattung nach. Der Literaturwissenschaftler steht also vor einem 
Problem: der unzureichenden Materialgrundlage. 

Das MDZ gibt drei Ausgangssituationen einer digitalen Texterfassung an: (1) 
die durch Drittmittelprojekte finanzierte Digitalisierung, (2) die »Digitalization 
On Demand« und (3) die »Konservatorische Digitalisierung«.”” Aufgenommen 
wird also zunächst das, was konkret angefragt wird — projektabhängige oder pri- 
vate Bedarfe - sowie vom Verfall bedrohte Werke. Genau diese Situation bildet 
die Grundlage einer sich selbst bestätigenden Kanonizität prominenter bzw. ver- 
bindlicher Reiseberichte,” die - wie erwähnt - Fitzon bemängelt.” Unbekanntere 
Texte, die nicht weniger aussagekräftig sein müssen, entziehen sich folglich oft 
der Forschung. Wichtige Kulturdokumente können verlorengehen. Dabei bietet 
gerade eine digitale Erschließung die Möglichkeit einer weitgehend vorurteils- 
freien Untersuchung unter den gleichen Bedingungen, relativ unabhängig von 
Traditionen oder individuellen »Vorurteilen«. 

Dieser Situation könnte begegnet werden, indem Digitalisierungen vermehrt 
chronologisch vorgenommen werden - und zwar deutschlandweit.” Digitalisiert 


49 Münchener Digitalisierungszentrum: Workflow, http://www.digitale-sammlungen.de/in 
dex.html?c=digitalisierung&l=de (18. Juni 2017). 

50 Aleida Assmann: »Kanonforschung als Provokation der Literaturwissenschaft«, in: Kanon — 
Macht - Kultur. Theoretische, historische und soziale Aspekte ästhetischer Kanonbildungen, hg. v. 
Renate von Heydebrand. Stuttgart, Weimar 1998, S. 214-221, hier S. 220. 

51 Fitzon: Reisen in das befremdliche Pompeji, S. 15f. 

52 Das Münchener Digitalisierungszentrum strebt mit seinen Projekten VD16, VD17 und VD18 
eine solche chronologische Digitalisierung an, bspw. beim VID17, http://www.digitale-samm 
lungen.de/index.html?c=sammlung&projekt=1307432002&1=de (18. Juni 2017). Jedoch wäre es 
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werden sollte auch das, was vor und nach prominenten Texten veröffentlicht 
wurde. Beispielsweise würde dies bezüglich des vorliegenden Korpus bedeuten, 
für das Erscheinungsjahr 1820 neben Wilhelm Müllers bekanntem Werk Rom, Rö- 
mer und Römerinnen? ebenso August Ifes Fußreise vom Brocken auf den Vesuv 
und Rückkehr in die Heimat™ oder Kalckreuths Blätter aus dem Tagebuche meiner 
Fußreise in Italien im Jahre 1817 bis 1818” zu digitalisieren. Erst hierdurch kann 
eine Textsammlung verfügbar gemacht werden, auf deren Grundlage reliable 
Forschungsergebnisse hervorgebracht werden können. 

Doch angenommen, sämtliche infrage kommenden Texte würden tatsächlich 
digital vorliegen — der Literaturwissenschaftler stünde vor einem weiteren Prob- 
lem: 


3.2 Zweites Hindernis: Wenige Volltexte 


Angenommen, das Fernziel wäre erreicht: Eine »‚WDL« wäre Realität, sämtliche 
gedruckten Texte wären online abrufbar: Auf JPGs oder PDF-Dokumenten ließen 
sich dennoch keine Auszeichnungen vornehmen. Hierfür müssen Volltexte ver- 
fügbar sein. Die Bibliotheken bzw. Digitalisierungszentren können diese Leis- 
tung bisher noch nicht übergreifend anbieten; gedruckte Texte werden nicht in 
vollem Umfang zugänglich gemacht. Einerseits müssen dafür entsprechende 
Softwares bzw. technische Infrastrukturen verfeinert bzw. erst entwickelt wer- 
den. Beispielhaft ist in diesem Zusammenhang das Projekt KALLIMACHOS® der 
Universität Würzburg zu nennen. Die Qualität der automatischen Vervolltextung 
ist jedoch immer abhängig von der Qualität des Ausgangstexts: von der Verwen- 
dung sprachtypischer Sonderzeichen und Frakturschriften, von Besonderheiten 
des Sprachwandels etc. Die entsprechende Texterkennungssoftware muss also 
erst auf das jeweilige Werk trainiert werden. Das kostet Zeit. 


wünschenswert, wenn diese Arbeitsabläufe in sämtlichen Einzelbibliotheken angewendet wer- 
den und sich die Korpora somit bestmöglich ergänzen würden. 

53 Wilhelm Müller: Rom, Römer und Römerinnen. Eine Sammlung vertrauter Briefe aus Rom und 
Albano mit einigen späteren Zusätzen und Belegen. Berlin 1820. 

54 August Ife: Fußreise vom Brocken auf den Vesuv und Rückkehr in die Heimat. Leipzig 1820. 
55 Friedrich Graf von Kalckreuth: »Blätter aus dem Tagebuche meiner Fußreise in Italien im 
Jahre 1817 bis 1818«, in: Askania. Zeitschrift für Leben, Litteratur und Kunst 1 (1820), S. 243-258, 
344-363 und 473-478. 

56 Universität Würzburg: KALLIMACHOS, www.kallimachos.de (18. Juni 2017). 
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2007 gab das Münchner Digitalisierungszentrum, das über eine Million digi- 
talisierte Werke vor allem aus dem 16. bis 19. Jahrhundert zur Verfügung stellt,” 
seine Kooperation mit Google in Form einer 6ffentlich-privaten Partnerschaft be- 
kannt und nutzt daher die OCR-Technologie des Unternehmens, die leider nicht 
immer zufriedenstellende Ergebnisse liefert.” Auf Nachfrage wurde der Autorin 
aber bestätigt, dass intern bereits an einer hauseigenen Lösung gearbeitet werde, 
die eine bessere OCR-Qualität verspreche. Diesbezüglich wurden also bereits 
Schritte eingeleitet, im Rahmen des DFG-finanzierten Projekts OCR-D wurden im 
März 2017 entsprechende Modulprojekte ausgeschrieben.” 

Es wäre daher ideal, jede Digitalisierung erstens hochaufgelöst und zweitens 
inklusive einer guten OCR bereitzustellen. Die Anfertigung der Volltexte benötigt 
jedoch noch Entwicklungsarbeit, um die Prozesse weitestgehend automatisiert 
und damit mit wenig Ressourcenaufwand bewerkstelligen zu können. 

Es stellen sich folglich Hindernisse heraus, die kurzfristig nicht oder nur 
schwer gelöst werden können. Diese Probleme, mit denen digitale Bibliotheken 
unter anderem zu kämpfen haben - die unglaubliche Menge zu produzierender 
Digitalisate sowie die Bereitstellung dieser als brauchbare, überprüfte Volltexte 
— beeinträchtigen den Forschungsfluss massiv. 


3.3 Drittes Hindernis: Wenig finanzielle Unterstützung für 
Master- und Promotionsprojekte 


Der Verband Dhd - Digital Humanities im deutschsprachigen Raum formulierte 
2014 die These, dass bis zum Jahr 2020 im Bereich der Digital Humanities Stu- 
diengänge sowie Promotionsmöglichkeiten geschaffen werden sollten — entspre- 
chende Angebote wurden bereits an einigen deutschsprachigen Universitäten 


57 Münchener Digitalisierungszentrum: Statistiken, http://www.digitale-sammlungen.de/in 
dex.html?c=statistiken&l=de (18. Juni 2017). 

58 Vgl. Münchener Digitalisierungszentrum: Chronik, http://www.digitale-sammlungen.de/in 
dex. html?c=mdz-chronik&l=de (18. Juni 2017); Münchener Digitalisierungszentrum: Massendi- 
gitalisierung, https://www.bsb-muenchen.de/die-bayerische-staatsbibliothek/projekte/digitali 
sierung/massendigitalisierung-im-rahmen-einer-public-private-partnership-zwischen-der-bay 
erischen-staatsbibliothek-und-google/ (28. Februar 2016); Kooperationen. https://www.bsb- 
muenchen.de/ueber-uns/kooperationen/google/ (18. Juni 2017). 

59 Siehe auch: OCR-D. Koordinierungsprojekt zur Weiterentwicklung von Verfahren der Optical 
Character Recognition (OCR), http://www.ocr-d.de/ (18. Juni 2017). 
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aufgebaut.‘ Jedoch stehen diesbezügliche Abschluss- bzw. Promotionsprojekte 
vor besonderen Herausforderungen - denn derart neue Forschungsfragen werfen 
auch neue Ressourcenfragen auf. Sind Promotionsprojekte beispielsweise stipen- 
dienfinanziert und nicht an laufende Forschungsvorhaben angebunden, wird die 
oben dargestellte Schieflage besonders deutlich: Zeit- und Geldaufwand für die 
Digitalisierungen, vom Scan bis hin zur Vervolltextung, sind für derartige Einzel- 
projekte hoch. Die Studienstiftung des Deutschen Volkes sieht für Promotions- 
studenten eine monatliche Forschungspauschale von 100 Euro vor.“ Dies ist be- 
reits eine gewisse »Luxussituation«. Die DFG vergibt in der Regel nur an bereits 
promovierte Wissenschaftler Sachbeihilfen.“ Doch allein die Scanarbeit, Vervoll- 
textung und gegebenenfalls das Training einer OCR-Software sind für Master- o- 
der Promotionsstudenten unter diesen Umständen finanziell nicht zu bewerk- 
stelligen. 

Erleichterungen könnten zunächst projektspezifische Stipendien schaffen — 
beispielsweise mit höheren Forschungspauschalen für Vorhaben im Bereich Di- 
gital Humanities. 


4 Chance 


»What about plot — how can that be quantified?«,“ fragt Franco Moretti. Eine 
Möglichkeit der Quantifizierung bietet die hier vorgestellte und am Beispiel der 
Italien-Reiseberichte illustrierte literaturwissenschaftliche Netzwerkanalyse. 
Eine solche Untersuchung schließt eine tiefergehende Small-Data-Analyse nicht 
aus - im Gegenteil. Gerade für die Gattung »Reisebericht« bietet sich die Durch- 
führung einer liNa an: Neben der Anschlussfähigkeit an andere DH-Projekte zum 
Thema »Italienische Reisen«, auch aus anderen Fachdisziplinen, wäre der Er- 
kenntnisgewinn enorm: Reisenetzwerke könnten erstmalig in großem Umfang 
herausgearbeitet, Cluster und Räume identifiziert, geo-referenziert und gattungs- 
geschichtliche Entwicklungen erkannt werden. Die Tools - NER-Softwares, OCR- 


60 Verband Dhd - Digital Humanities im deutschsprachigen Raum. Thesen: Digital Humanities 
2020, https://dig-hum.de/thesen-digital-humanities-2020 (18. Juni 2017). 

61 Studienstiftung des deutschen Volkes: Promotionsstipendien, http://www.studienstif 
tung.de/promotion/promotionsstipendien.html (18. Juni 2017). 

62 Deutsche Forschungsgemeinschaft: Einzelförderung, http://www.dfg.de/foerderung/pro 
gramme/einzelfoerderung/index.html (18. Juni 2017). 

63 Franco Moretti: Network Theory, Plot Analysis. Literary Lab Pamphlets 2. Stanford Literary 
Lab. Stanford 2011, https://litlab.stanford.edu/LiteraryLabPamphlet2.pdf (18. Juni 2017), S. 2. 
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Erkennungsprogramme, Visualisierungsprogramme - sind bereits vorhanden 
und nutzbar. 

Die Hindernisse, mit denen solcherart DH-Projekte jedoch noch zu kampfen 
haben, sind viel grundlegenderer Art: Es fehlt meist die Textbasis. Digitalisie- 
rungsaufträge orientieren sich vor allem am »Markt«, an den prominenten Wer- 
ken, und nicht unbedingt an einer vollumfänglichen Erfassung aller veröffent- 
lichten Werke. Bereits vorliegende Digitalisate verfügen zudem oft über schlechte 
Volltexte — gerade wenn die Originale in Fraktur vorliegen. Lücken müssen mit 
privaten Mittel geschlossen werden, wenn das jeweilige Forschungsprojekt nicht 
durch den Lehrstuhl oder Drittmittel finanziert wird. Hierzu reichen meist weder 
die monetären noch die personellen bzw. zeitlichen Ressourcen aus. 

Um dieser Schieflage entgegenzuwirken, könnten weitere chronologisch 
durchgeführte Digitalisierungen mehr Objektivität und eine breite Erfassung 
(und Erhaltung) historischer Texte ermöglichen. In technischer Hinsicht wäre es 
wünschenswert, dass Bibliotheken zu sämtlichen angefertigten Scans entspre- 
chend gut aufbereitete Volltexte zur Verfügung stellen - oder beispielsweise zu- 
mindest einen Webservice anbieten, mit dem Wissenschaftler in die Lage versetzt 
werden, Texte hochzuladen und eine automatisch erstellte OCR zu erhalten. Das 
genannte Projekt OCR-D lässt auf eine praktikable Lösung hoffen. Bis eine solche 
Technik entwickelt bzw. eingesetzt wird, ist eine auf das jeweilige Projekt ange- 
passte Vergabe von Forschungspauschalen unbedingt empfehlenswert. Denn so 
vielfältig DH-Projekte sein mögen, bedeuten sie unter den genannten Vorausset- 
zungen noch immer einen erheblichen Mehraufwand für den Forschenden - fi- 
nanziell und zeitlich. 

David M. Berry konstatiert berechtigterweise über den Computational Turn: 
»At all levels of society, people will increasingly have to turn data and infor- 
mation into usable computational forms in order to understand it at all.«° Um für 
die Textanalyse jene innovativen Methoden nutzen zu können, die bereits mög- 
lich sind, werden allem voran gute Forschungsinfrastrukturen benötigt. 
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Celia Krause und Philipp Hegel 
Uberlegungen zur quantitativen 
Kodikologie’ 


Abstract: As early as in the 1980s, quantitative methods were used systematically 
in the manuscript studies, in which, among other things, codicological and so- 
cial-historical parameters were linked. Even in the case of codicological studies, 
which are not oriented quantitatively in a narrow sense, there are quantitative 
statements, such as remarks on the book layout or the historical development of 
complete stocks. This essay reconstructs the theoretical and methodological ap- 
proaches in earlier works, and develops an own schematic workflow on the basis 
of these approaches. Subsequently, the concrete objects and possible methods of 
a quantitative codicology are sketched out. The article concludes with some re- 
flections on the significance of comparative studies in the context of quantitative 
investigations. 


1 Quantitative Ansätze in der Kodikologie 


Zu den wichtigsten Quellengattungen der Mediävistik gehören Handschriften, 
die zunächst vor allem hinsichtlich ihrer Texte, aber auch mit Blick auf die Buch- 
malereien studiert worden sind. Die Handschrift ist Gegenstand einer großen An- 
zahl von Disziplinen, denn der mittelalterliche Kodex stellt eine komplexe, in 
sich geschlossene Einheit dar, die aus unterschiedlichen Blickwinkeln heraus be- 
trachtet werden kann.? Aus der allgemeinen Handschriftenkunde heraus entwi- 
ckelte sich eine historische Hilfswissenschaft, die in einem engeren Sinn die der 


1 Der vorliegende Aufsatz entstand im Kontext des vom Bundesministerium für Bildung und 
Forschung geförderten Projektes »eCodicology - Algorithmen zum automatischen Tagging mit- 
telalterlicher Handschriften« (Förderkennzeichen: 01UG1350A bis C). 

2 Inhalte einer Handschrift werden von Sprach- und Literaturwissenschaftlern, Editionsphilo- 
logen, Historikern, und - je nach Thematik der Texte - Vertretern weiterer Wissensgebiete un- 
tersucht. Mit der Schrift, ihrer Ausprägung und Entwicklung beschäftigen sich Paläographen. 
Die Buchmalerei wiederum ist unter anderem Gegenstand der Kunstgeschichte. Die an der Hand- 
schriftenkunde beteiligten Disziplinen fasst Thomas Stäcker folgendermaßen zusammen: »In 
Frage kommen hier die theologischen Wissenschaften, die Geschichte, darunter spezifisch und 
überlappend die Geistes-, Kultur-, Kunst-, Kirchen-, Musik-, Medizin-, Mathematikgeschichte 
usw., allgemein und unscharf die Mediävistik, weil es sich hierbei eher um einen Oberbegriff 
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Handschrift eigenen materiellen physischen Merkmale zum Gegenstand hat und 
in einem weiteren Sinn zusätzliche Dimensionen wie etwa geschichtliche Zusam- 
menhänge, Funktion und Gebrauch der Handschrift oder ihre Aufbewahrungs- 
umstände miteinbezieht.’ So gibt es einige Überschneidungen mit verschiedenen 
Disziplinen wie den Philologien und der Kunstgeschichte; ihrem Gegenstand 
nach ergeben sich zudem einige Parallelen zur Druckforschung. 

In den 1940er Jahren wurde diese Art der Erforschung von Handschriften 
erstmals mit dem Terminus Kodikologie belegt‘; die Kodikologie als eigenstän- 
dige Disziplin wurde im darauffolgenden Jahrzehnt unter der Ägide des Hand- 
schriftenbibliothekars Francois Masai begründet.’ Die Inhalte der frühen Kodiko- 
logie sind heuristischer Natur: äußere Merkmale von Handschriften wurden 
aufgenommen, beschrieben und studiert, um daraus Erkenntnisse über Arbeits- 
techniken und Abläufe in der mittelalterlichen Buchherstellung zu gewinnen. Zu 
den typischen Untersuchungsgegenständen von Kodikologen gehörten etwa Ein- 
band, Lagenstruktur, Linierungstechnik und Beschreibstoff.° 


handelt für alle Wissenschaften, die sich mit dem Mittelalter befassen, die Literaturwissen- 
schaft, die Philologie, darunter die Latinistik, Gräzistik und die jeweiligen nationalsprachlichen 
Philologien, die Paläographie und andere Hilfswissenschaften, die Volkskunde und last but not 
least die Bibliothekswissenschaft«. (Thomas Stäcker: »Eine Datenbank für mittelalterliche 
Handschriften«, in: Bibliothek 23.3 (1999), S. 358). Vgl. auch Karl Löffler und Wolfgang Milde: 
Einführung in die Handschriftenkunde. Stuttgart 1997, S.3 und 5. 

3 Löffler und Milde: Einführung in die Handschriftenkunde, S. 19-20. Im romanischen Sprach- 
raum (vor allem Frankreich und Italien) ist die Kodikologie auch unter der Bezeichnung »Archä- 
ologie des Buches: bekannt, vgl. auch Jean Lemaire: Introduction à la codicologie. Louvain 1989, 
S. 3-6; Marilena Maniaci: Archeologia del manoscritto. Metodi, problemi, bibliografia recente. 
Roma 2002, S. 18-19, und Maria Luisa Agati: Il libro manoscritto da oriente a occidente. Per una 
codicologia comparata. Roma 2009 (Studia Archaelogica 166), S. 30. 

4 »Er (i. e. der Begriff Kodikologie) wurde zuerst 1944 von dem Pariser Gräzisten Alphonse Dain 
in Vorlesungen verwendet, die er 1949 unter dem Titel >Les manuscrits: veröffentlichte« (Löffler 
und Milde: Einführung in die Handschriftenkunde, S. 19). Siehe auch Agati: ll libro manoscritto da 
oriente a occidente, S. 29. 

5 Löffler und Milde: Einführung in die Handschriftenkunde, S. 20. 

6 Diesen Ansatz verfolgte beispielsweise die Untersuchung von Léon Gilissen, in der er ein 
»examen archéologique« an Handschriften des 8. bis 15. Jahrhunderts vornahm (Léon Gilissen: 
Prolegomènes à la codicologie. Recherches sur la construction des cahiers et la mise en page de 
manuscrits médiévaux. Gand 1977). Methodische Grundlagen, Techniken und Instrumente der 
allgemeinen Kodikologie behandeln unter anderem Lemaire: Introduction à la codicologie, S. 6- 
9; Maniaci: Archeologia del manoscritto, S. 20-22 und Agati: Il libro manoscritto da oriente a oc- 
cidente, S. 32-36. 
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Im Zuge der Einführung neuer Untersuchungsmethoden hat man damit be- 
sonnen, die Handschriften nicht nur qualitativ, sondern auch quantitativ zu un- 
tersuchen. Erhobene Daten über das Erscheinungsbild von Handschriften wur- 
den gesammelt und systematisiert. Nicht das punktuelle Detailstudium an 
Einzelbüchern stand dabei im Vordergrund, sondern eine quantitative Betrach- 
tung möglichst vieler Merkmale des Buches, also zum Beispiel aller Seiten eines 
bestimmten Buchbestandes. In den 1980er und den frühen 1990er Jahren wurden 
im Rahmen des Forschungsprogramms QUANTICOD am Centre national de la re- 
cherche scientifique in Paris einige Artikel veröffentlicht,’ in denen der Kodex zum 
Teil auch aus soziologischer Sicht als Bestandteil einer »breiten Masse« behan- 
delt wurde. Für zuvor festgelegte äußere Merkmale von Handschriften erhob man 
Mess- und Zähldaten, wertete diese mit dem Computer statistisch aus und visua- 
lisierte die Ergebnisse in Graphiken und Tabellen.’ Eine solche Analyse betrach- 
tet das Material sozusagen aus der Vogelperspektive. Die einzigartige Ausfüh- 
rung, die die Handschrift als historisches Unikat kennzeichnet, wird dann zwar 
nicht mehr besonders gewürdigt, jedoch können durch die Untersuchung von 
scheinbar oberflächlichen Merkmalen Forschungsfragen beantwortet werden, 
auf die in Detailstudien allein kaum eingegangen werden könnte. Zum Beispiel 
ist anzunehmen, dass es bei der Herstellung geschriebener Bücher Tendenzen 
der Rationalisierung und Normierung gab. Solche Vermutungen lassen sich we- 
niger überzeugend am Einzelobjekt überprüfen als an einer großen Menge von 
Kodizes. Ezio Ornato, ein Mitglied der französisch-italienischen Forschungs- 
gruppe, hat die quantitative Kodikologie dementsprechend als Beobachtung des 
»Banalen«, also des vielen Objekten Gemeinsamen, bezeichnet: »Le »quantitati- 
viste< relève [...] l’information pauvre et élémentaire parce que commune et ba- 
nale«.? 


7 So wurde »Un programme d'étude quantitative du livre médiéval« im Namen der Forschungs- 
gruppe selbst veröffentlicht. Die Gruppe verschreibt sich dort einer globalen Herangehensweise, 
»qui rende mieux compte de multiples facettes (matérielles, intellectuelles et fonctionelles) de 
ce témoin privilégié de la civilisation médiévale qu’est le livre« (QUANTICOD: »Un programme 
d’etude quantitative du livre médiéval«, in: Gazette du livre médiéval 6 (1985), S. 7-13, hier S. 7). 
Zu den Forschungsinteressen der Gruppe QUANTICOD zum Beispiel Maniaci: Archeologia del 
manoscritto, S. 24. 

8 Uber Ansatz und Methodik der quantitativen Kodikologie jener Tage informieren vor allem 
die folgenden Aufsatzsammlungen mit Fallbeispielen: Carla Bozzolo und Ezio Ornato: Pour une 
histoire du livre manuscrit au moyen âge: Trois essais de codicologie quantitative. Paris 1980; Ezio 
Ornato (Hg.): La face cachée du livre médiéval. Rom 1997. 

9 Ezio Ornato: »La codicologie quantitative, outil privilégié de l'histoire du livre medieval«, in: 
Historia, instituciones, documentes 18 (1991), S. 375-402, hier S. 387. Dies erinnert vielleicht an 
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Die Methode der quantitativen Kodikologie versteht sich dabei durchaus 
auch selbst weiterhin als Heuristik. So ist eine modale Analyse nach dem Ver- 
ständnis Ornatos die Voraussetzung für eine kausale. Die modale Analyse ziele 
dabei auf eine Typologie der Kodizes nach äußerer Erscheinung sowie nach Zeit, 
Raum, Bedeutung und technischen Verhältnissen: 


Le quantitativiste [...] s’interessera a la typologie de réclame - qui’il s’efforcera de stratifier 
en fonction du temps et de la géographie - et surtout a la signification de leur apparation 
[...], aux avantages et aux inconvenients fonctionelles qu’elles introduissent par rapport 
aux practiques antérieures." 


Strukturelle Details spiegeln in dieser Konzeption Funktionen und Voraussetzun- 
gen wider. Diesem Zusammenspiel widmet sich, so lässt sich annehmen, etwas, 
das man als »kausale Analyse« bezeichnen kann. 

Diese Bezeichnung verschleiert dabei gleichwohl die funktionale Ausrich- 
tung dieses Ansatzes ein wenig, die sich in Ornatos Umschreibungen findet und 
die den Anschluss an die Diskussion um die funktionale Analyse oder Erklärung 
ermöglicht. Hinter einer Funktion hat Carl Gustav Hempel folgendes Muster ge- 
sehen: Etwas erfüllt einen notwendigen Anspruch eines Systems unter bestimm- 
ten inneren und äußeren Rahmenbedingungen.” Er hat auch auf die Notwendig- 
keit einer allgemeinen Hypothese der Selbstregulation eines Systems, die in 
einem solchen Fall notwendig ist,” und auch auf das Problem funktionaler Äqui- 
valente hingewiesen.” Bei soziokulturellen Phänomenen ergeben sich allerdings 
besondere Fragen. So verweist Robert K. Merton darauf, dass »functional analy- 
sis [in sociology] invariably assumes or explicitely operates with some concep- 
tion of the motivation of individuals involved in a social system«.” Damit stellt 


die Feststellung Georg Wilhelm Friedrich Hegels, dass das Bekannte gerade nicht erkannt ist, 
weil es bekannt ist, vgl. Georg Wilhelm Friedrich Hegel: Gesammelte Werke 9. Phänomenologie 
des Geistes, hg. v. Wolfgang Bonsiepen und Reinhard Heede. Hamburg 1980, S. 26. Hegel hatte 
dabei allerdings die Entwicklung des Geistes im Blick und nicht die quantitative Untersuchung 
des Gegebenen. 

10 Ornato: »La codicologie quantitative, outil privilégié de l’histoire du livre medieval«, S. 386: 
»les questions que se pose le quantitativiste appartiennent à lunivers du »pourquoi«: la connais- 
sance du »comment est certes indispensable, mais elle west qu’un prelude«. 

11 Ebd., S. 386. 

12 Vgl. Carl G. Hempel: »The Logic of Functional Analysis«, in: Symposium on Sociological The- 
ory, hg. v. Lleellyn Gross. New York 1959, S. 271-307, hier S. 280. 

13 Ebd., S. 290. 

14 Vgl. ebd., S. 285. 

15 Robert K. Merton: Social Theory and Social Structure. New York 1967, S. 50. 
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sich die Frage, ob bei »manifesten« Funktionen, die von den Akteuren wahrge- 
nommen und beabsichtigt werden, die Einsicht in die vielleicht nur vermeintli- 
che Notwendigkeit wesentlich ist und nicht die »latente«, die ein Beobachter fest- 
stellen mag." 

Auch Niklas Luhmann, der den »nicht-psychischen Charakter sozialer Sys- 
teme«” betont, hebt funktionale Aquivalenzen hervor und verknüpft funktionale 
Abstraktionen mit Problemen und deren Lösung: »Die allgemeine Systemtheorie 
fixiert nicht die in allen Systemen ausnahmslos vorzufindenden Wesensmerk- 
male. Sie wird vielmehr in der Sprache von Problemen und Problemlösungen for- 
muliert, die zugleich begreiflich machen, daß es für bestimmte Probleme unter- 
schiedliche funktional äquivalente Problemlösungen geben kann«." Die 
Anforderungen an Funktionen werden bei diesem Ansatz zumindest für soziale 
Gebilde gemildert: Nicht jede Funktion muss in jeder Gesellschaft vorhanden 
sein. Im Gegensatz zu Hempel vertritt Luhmann auch die Ansicht, dass gerade 
der Vergleich funktionaler Äquivalente das eigentliche Ziel der funktionalen 
Analyse ist, um latente Funktionen sichtbar werden zu lassen und die Kontin- 
genz aktueller Lösungen vorzuführen: »»funktionale Erklärung« kann [...] nichts 
anderes sein als die Ermittlung (im allgemeinen) und Ausschaltung (im konkre- 
ten) von funktionalen Aquivalenten. [...] Die Leistung der funktionalen Orientie- 
rung liegt in der Ausweitung und Limitierung des Méglichen«.” Dies mildert die 
Ansprüche, die Hempel an funktionale Erklärungen gestellt hat. Die Funktion ist 
nicht mehr etwas »Lebensnotwendiges«, sondern gerade etwas, das auf verschie- 
dene Weise erfüllt werden kann. »Die Funktion ist keine zu bewirkende Wirkung, 
sondern ein regulatives Sinnschema, das einen Vergleichsbereich äquivalenter 
Leistungen organisiert«.”° Bei dieser Aquivalenz kann, so Luhmann, zwischen 
disjunktiver und konjunktiver Äquivalenz unterschieden werden.” Diese Unter- 


16 Ebd., S. 51: »Manifest functions are those objective consequences contributing to the adjust- 
ment or adaption ofthe system which are intended and recognized by participants in the system; 
Latent functions, correlatively, being those which are neither intended nor recognized«. 

17 Niklas Luhmann: Soziale Systeme. Grundriß einer allgemeinen Theorie. Frankfurt a. M. *1994, 
S. 32. 

18 Ebd., S. 33. 

19 Ebd., S. 85-86. Eine Frage, die hier nur angedeutet werden soll, ist, wie der Gefahr bloß un- 
terstellter latenter Funktionen begegnet werden kann. Die Beantwortung dieser Frage hängt 
wahrscheinlich in einem hohen Maße von der angenommenen Funktion selbst ab. 

20 Niklas Luhmann: Soziologische Aufklärung. Aufsätze zur Theorie sozialer Systeme, Band 1. 
Opladen °1984, S. 14. 

21 Vgl. ebd., S.23: »Mehrere Ursachen können als Alternativen oder als zusammenwirkende 


340 — Celia Krause und Philipp Hegel 


scheidung ist relevant, da sie verschiedene, aber miteinander verzahnte Metho- 
den der Überprüfung, Bestätigung oder Verwerfung nahelegt. Bei disjunktiven 
Ursachen kann diese durch »Austausch von äquivalenten Ursachen«” erfolgen, 
bei konjunktiven »durch Weglassen einzelner Ursachen«.” Substitutionen und 
Subtraktionen dieser Art sind natürlich an »lebenden« Gesellschaften kaum vor- 
zunehmen und erst recht nicht bei historischen. Luhmann nennt jedoch zwei 
Wege, die indirekt Aufschluss über solche Zusammenhänge geben können. Zum 
einen nennt er »Störungen eines normalen Ablaufs«,™ zum anderen »Systemver- 
gleiche«.” In dem einen Fall könnte man davon sprechen, dass eine historische 
Veränderung zum Ausgangspunkt genommen wird, in dem anderen Fall relativ 
stabile, aber divergierende kulturelle Praktiken. 

Probleme der Erhaltung bestimmter Strukturen betreffen in Gesellschaften 
nach diesem Ansatz nicht notwendig die Existenz der Gesellschaften selbst. Ge- 
sellschaften ohne Schrift gibt es, aber wenn Schrift erhalten bleiben soll, muss es 
Mechanismen geben, die dies absichern. Menschen müssen lernen, zu schreiben 
und zu lesen; Materialien zum Schreiben müssen bereitstehen.” Ornato unter- 
scheidet in Hinblick auf die Produktion, Distribution und Rezeption der Bücher 
Funktionen wie Vermittlung, Dauer und Lesbarkeit sowie das, wenn man es so 
nennen möchte, technische Dispositiv der Buchproduktion und den Rahmen po- 
litischer, ökonomischer und kultureller Konjunkturen.” Diese Explikation weist 
in sozialwissenschaftliche Gefilde. 


Ursachen auf eine Wirkung bezogen werden«. 

22 Ebd., S. 23. 

23 Ebd., S. 24. 

24 Ebd., S. 24. 

25 Ebd., S. 25. 

26 Fallt die Schrift weg, geht die Gesellschaft nicht notwendig unter. Nur diese Kompetenz geht 
verloren und Funktionen, die an sie gebunden waren, miissen entweder von anderen Strukturen 
übernommen werden oder entfallen ebenfalls. Es gibt nur einige wenige Funktionen wie Nah- 
rungsbeschaffung, die fiir eine Gesellschaft biologisch notwendig sind. Die mittelalterliche 
Buchproduktion war sicherlich nicht in diesem Sinne für die europäische Gesellschaft überle- 
bensnotwendig, aber sie erforderte und ermöglichte bestimmte soziale und kulturelle Leistun- 
gen. 

27 Ornato: »La codicologie quantitative, outil privilégié de l’histoire du livre medieval«, S. 387- 
388: »les détails de la structure et de la presentation des livres [...] sont chaque fois le miroir des 
phénomènes qui ne relèvent nullement du hasard ni du libre arbitre de l’artisan: d'un côté, le 
souci d’assurer la fonctionnalité du livre - tout simplement, la transmission, dans les meilleures 
conditions de lisibilité et de durabilité, du message qu’il contient — et d’assumer le impératifs 
dictés par le devéloppement de la vie culturelle; de l’autre, les contraintes inhérentes a l’état de 
la technologie, a l’ergonomie du travail, à la nécessité d’économiser le temps et les matériaux; 


Überlegungen zur quantitativen Kodikologie — 341 


Ezio Ornato und Carla Bozzolo unterscheiden eine Stufe der Vorbereitung, in 
der das Korpus, also die Sammlung an untersuchten Handschriften, und die zu 
beobachtenden Variablen bestimmt sowie anschließend diese Variablen gesam- 
melt und normalisiert werden,” von den Phasen der Beobachtung” und der Deu- 
tung.” Mit dieser in sich zweiteiligen Vorbereitung gliedert sich das Verfahren 
der quantitativen oder auch experimentellen Kodikologie” zusammenfassend 
grob in die folgenden Schritte:” 


de l’autre encore, bien étranger, en apparence, au faciés de page écrite mais pourtant omnipré- 
sent au moment de sa construction par l’artisan, les avatars de la conjoncture &conomique, po- 
litique, voire &pid&mique«. 

28 Ebd.:»La phase préparatoire comprend le choix des populations qui, rassemblées en corpus, 
constitueront le champ d’observation, et des variables a recenser; la collecte et la normalisation 
de ces variables en vue du traitement ultérieur«. 

29 Carla Bozzolo und Ezio Ornato: »Pour une codicologie »expérimentale««, in: La face cachée 
du livre médiéval, hg. v. Ezio Ornato. Rom 1997, S. 3-31, hier S. 15: »le corpus fait objet d’une 
division dichotomique a partir d’une hypothése formulée par le chercheur. Le comportement de 
la variable a expliquer est décrit en termes numeriques«. Diese Umschreibung ist nicht unmit- 
telbar mit »Analyse der Struktur einer Menge von Handschriften« iibersetzbar. Diese Struktur- 
analyse setzt vielmehr die Aufteilung des Korpus sowie die Ubersetzung von Merkmalen in Da- 
ten voraus. Die Variablen können dann aber durchaus als numerische Entsprechungen 
struktureller Merkmale angesehen werden, die einerseits der Unterteilung des Korpus dienen 
können, zum anderen statistisch ausgewertet werden können. Die Beobachtung ist damit gewis- 
sermaßen die statistische Umsetzung der modalen Analyse. 

30 Ebd.: »on vérife que ces résultats n’ont pas un caractére aléatoire et qu’ils ne dépendent pas 
de ,vices caches‘ introduits pendant la phase préparatoire. On interpréte en formulant soit une 
nouvelle hypothése, soit une hypothése plus restrictive qui devra étre vérifée ä son tour.« Die 
kausale Analyse bildet sich in dieser Form der Interpretation in den Hypothesen ab. Die Inter- 
pretation vereinigt damit gewissermaßen die statistische Überprüfung heuristischer Zugänge 
und die heuristische Überprüfung statistischer Resultate. 

31 Die Bezeichnung verwenden Ornato und Bozzolo in einem Aufsatz aus dem Jahr 1982: »»Ex- 
périmenter, cela signifie [...] faire varier le conditions d’observation d'un phénomène afin d’in- 
dentifier les facteurs explicatifs de celui-ci.« (Bozzolo und Ornato: »Pour une codicologie »ex- 
perimentale«, S. 3). 

32 Das folgende Schema wurde so nicht von Ornato und Bozzolo erstellt, sondern versucht eine 
Zusammenführung verschiedener ihrer Darstellungen. 
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1. Vorbereitung 


a) Erstellung eines Korpus von Handschriften zur Behandlung einer spezi- 
ellen Frage 

b) Festlegung und Normalisierung der Variablen, das heißt der kodikolo- 
gisch gedeuteten, aus realen Buchmerkmalen gewonnenen Daten” 


2. Beobachtung als Umsetzung der modalen Analyse 


a) Teilung des Korpus entsprechend der Fragestellung™ 
b) Feststellung der numerischen Zusammenhänge zwischen den beobach- 
teten Variablen 


3. Interpretation als Umsetzung der kausalen oder funktionalen Analyse” 


a) Überprüfung der Signifikanz und damit der Hypothese 
b) Gegebenenfalls Formulierung einer neuen Hypothese 


Ornato begreift diese Arbeit als eine ebenso globale wie dialektische Form der 
Geschichtsschreibung, und zwar insofern, als sie das Buch in einen größeren his- 
torischen Kontext einbettet und die Interaktion innerer und äußerer Faktoren zu 
beschreiben sucht.” Die Anlage dieser Methode zeigt also deutlich, dass sie nicht 


33 Bozzolo und Ornato: »Pour une codicologie »experimentale«, S. 23: »Ce processus [i. e.: la 
formalisation] [...] s'articule en deux phases destinctes: d’abord, la transformation de la réalité 
observée en données: ensuitele cas échéant. l’organisation des ces derniéres en variables en vue 
d’une analyse de type quantitatif.« Wenn Daten fiir Variablen bereits vorliegen, mtissen diese 
nur normalisiert bzw. formalisiert werden. Liegen sie nicht vor, muss eine entsprechende Erhe- 
bung vorangehen, vgl. auch Agati: Il libro manoscritto da oriente a occidente, S. 38. 

34 Dieser Schritt weicht von dem Konzept Ornatos insofern ab, als diese Teilung in der hier ge- 
wahlten Formulierung nicht dichotomisch sein muss. 

35 Die doppelte Nennung soll verdeutlichen, dass Ornato neben funktionalen Aspekten auch 
kausale Faktoren wie zum Beispiel technische Voraussetzungen beriicksichtigt. Wichtig ist fer- 
ner, dass Problemlösungen andere, spätere Problemlösungen bedingen. Vgl. Luhmann: Sozio- 
logische Aufklärung, S. 20: »Wird eine dieser Alternativen [zur Lösung eines Ausgangsproblems], 
gewählt bzw. in konkreten Systemen vorgefunden, so beginnt damit eine neue Abstraktion, die 
eine andere Serie von Äquivalenzen konstituiert.« Um Missverständnissen vorzubeugen, die mit 
dem Begriff der Kausalität zusammenhängen, sollte vielleicht von Voraussetzungen gesprochen 
werden. 

36 Ornato: »La codicologie quantitative, outil privilégié de l’histoire du livre medieval«, S. 388: 
»elle doit participer à l’&laboration d’une histoire globale et dialectique: globale, dans la mesure 
oú elle doit prendre en considération au même titre tous les éléments du livre et tous les facteurs 
qui agissent sur lui; dialectique dans la mesure ot elle doit rendre compte a la fois de la maniére 


Überlegungen zur quantitativen Kodikologie — 343 


nur auf eine statistische Erfassung der Angaben zum Buch abzielt, sondern auch 
insbesondere auf die Herausstellung von Korrelationen zwischen kodikologi- 
schen und anderen, z. B. sozialhistorischen Parametern. Die Sichtweise auf das 
Buch verändert sich, indem es als ein Objekt verstanden wird, dessen zeitliche 
und räumliche Entwicklung von gesellschaftlichen und kulturellen Faktoren ab- 
hängig ist. 

Dieser Sprung von einer Ebene zu einer anderen ist jedoch notwendigerweise 
auch mit einem interdisziplinären Moment verbunden, denn die Parameter, die 
zum Vergleich herangezogen werden, entstammen nicht selten Systemen, die mit 
der äußeren Beschreibung von Handschriften nicht erfasst werden können und 
in der Regel ganz anderer methodischer Werkzeuge bedürfen. In Glücksfällen 
mögen diese Faktoren, die zum Vergleich herangezogen werden, bereits er- 
forscht sein. In einer Vielzahl der Fälle steht jedoch zu befürchten, dass keine 
ausreichenden Daten zu diesen Gegenständen vorliegen. 

Als verwandte, aber nicht ganz so »globale« Variante kann der Vergleich zwi- 
schen unterschiedlichen Beständen betrachtet werden. Dieser nicht »globale«, 
sondern eher komparatistische Ansatz schließt sozialhistorische Kontextualisie- 
rungen keineswegs aus, kann aber vorweg bereits die Datengrundlage erweitern 
und auf die Relevanz oder Irrelevanz einzelner kodikologischer Parameter hin- 
weisen. Das Forschungsfeld kann so im Vorhinein bereits strukturiert werden 
und, insofern unterschiedliche oder gemeinsame sozialhistorische Rahmenbe- 
dingungen vorliegen, auch etwas über die Erklärungskraft dieser äußeren Bedin- 
gungen vermuten lassen. Dies giltauch, wenn ein Vergleich zwischen zwei Teilen 
eines einzelnen Bibliotheksbestandes vorgenommen wird. Auch hier können die 
politischen, sozialen, ökonomischen und kulturellen Rahmenbedingungen vari- 
ieren. Außerdem kann untersucht werden, ob es einen systematischen Zusam- 
menhang zwischen einzelnen Merkmalen gibt und ob diese zumindest scheinbar 
unabhängig von diesen Rahmenbedingungen sind. 


dont ces facteurs interagissent entre eux et de la maniére dont ils interagissent avec la structure 
et la présentation de l’objet.« Ähnlich auch Bozzolo und Ornato: »Pour une codicologie »expéri- 
mentale««, S. 31: »L’histoire du livre appararit donc si étroitement imbriguée a l’histoire de tech- 
niques, de l’économie, de idéologies, bref, de la civilisation, qui’il serait impossible de l’en sé- 
parer«. 
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2 Uberpriifung quantitativer kodikologischer 
Aussagen 


Es wäre naiv zu behaupten, dass quantitative Verfahren mit der gängigen kodi- 
kologischen Praxis unproblematisch zu verbinden wären. Im Gegensatz zu den 
Naturwissenschaften oder auch zu den empirisch arbeitenden Zweigen in der 
Psychologie und Soziologie gibt es beispielsweise kaum Erfahrungen mit Richt- 
werten, die festlegen könnten, wann eine kodikologische Aussage als bestätigt 
gelten kann. Zugleich hat die Wissenschaft von den Handschriften und Drucken 
aber immer schon mit dem Vergleich und der Gruppierung von Handschriften 
nach mehr oder weniger gut definierten Merkmalen gearbeitet.” Versucht wurde 
die Erhebung und Untersuchung solcher Merkmale bezüglich der Anordnung der 
verschiedenen Layoutelemente auf der handgeschriebenen Seite, jenem Bereich, 
der in der Forschung mit dem Begriff »mise en page« belegt ist.” So begreift Uwe 
Neddermeyer das Buch beispielsweise als »Recheneinheit«, indem er das Buch- 
format, die Seitenzahl, die Zeilenzahl und die Zeilenbreite gegeneinander hält 
und daraus Aussagen zum Textumfang und zur Seitenausnutzung ableitet.” 
Aber auch ohne expliziten Rückgriff auf derartige Methoden sind quantitative 
Aussagen in der kodikologischen Literatur nicht selten. Zum Beispiel konstatiert 
Christine Jakobi-Mirwald, dass die Gestaltung der Seitenränder im mittelalterli- 
chen Buch bestimmten Richtlinien unterlag, wobei das Verhältnis zwischen den 
Stegen an Bund, Kopf, Schnitt und Fuß etwa im Bereich von 3:5:5:8 liegt. Eine 
weitere Faustregel besage, dass die Höhe des Schriftraumes in etwa der Breite des 
Blattes entspricht.“ Nicht auf die Seite, gleichwohl auf quantitative Verhältnisse 


37 Eine quantitative Erfassung von Handschriften und frühen Drucken findet sich beispiels- 
weise bei Uwe Neddermeyer: »Möglichkeiten und Grenzen einer quantitativen Bestimmung der 
Buchproduktion im Spätmittelalter«, in: Gazette du livre médiéval 28 (1996), S. 23-32 und Uwe 
Neddermeyer: Von der Handschrift zum gedruckten Buch. Schriftlichkeit und Leseinteresse im Mit- 
telalter und in der frühen Neuzeit. Quantitative und qualitative Aspekte, 2Bde. Wiesbaden 1998 
(Buchwissenschaftliche Beiträge aus dem Deutschen Bundesarchiv München 61). Methodische 
Bedenken äußern in ihrer Rezension Ursula Rautenberg und Günther Görz: »Medienwechsel bib- 
liometrisch«, in IASL online, http://wwwdh.cs.fau.de/IMMD8/staff/Goerz/nedderm.pdf (18. 
Juli 2017). 

38 Zum Begriff „mise en page« unter anderem Maniaci: Archeologia del manoscritto, S. 101-120, 
mit ausführlicher Literatur S. 228-233. 

39 Neddermeyer: Von der Handschrift zum gedruckten Buch, Bd. 1, S. 156-159. 

40 Vgl. Christine Jakobi-Mirwald: Das mittelalterliche Buch. Funktion und Ausstattung. Stuttgart 
2004, S. 167. 
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zielt Bernhard Bischoff, wenn er feststellt: »Daß Handschriften deutscher Dich- 
tung verhältnismäßig häufig in großen Formaten und großer Textura angelegt 
wurden, läßt schon im Äußeren erkennen, welchen Wert der Auftraggeber diesen 
Büchern beimaß«.“ 

Dieses Zitat zeigt nicht nur, dass bei der Beschreibung des Äußeren oft auf 
zahlenmäßige Verhältnisse eingegangen wird, es demonstriert auch den Aspekt 
einer funktionalen oder kausalen Erklärung: Formate und Schriften werden dem- 
nach gewählt, um ästhetischen Kriterien oder sozialen Interessen zu entspre- 
chen. Für Jakobi-Mirwald ist die Verteilung der Seitenränder hingegen »auch ma- 
teriell begründet«.‘” Wenn derartige Aussagen in der Kodikologie bedeutsam 
sind, dann ist es nicht abwegig, solche Informationen auch statistisch zu erfassen 
und jenseits eines möglichen intuitiven Eindrucks oder langjähriger persönlicher 
Erfahrung nachvollziehbar zu beschreiben und zu interpretieren. Auch bei Fra- 
gen der Einordnung spielen solche Argumentationen oft eine Rolle: Bestimmte 
Merkmale werden als Indiz für die Entstehungszeit des Buches oder die Klärung 
seiner Herkunft gelesen, da diese Merkmale zu einer bestimmten Zeit oder in ei- 
ner bestimmten Schule, zum Teil bei einzelnen Händen signifikant häufiger auf- 
treten als anderswo. So wurde beispielsweise der Umgang mit dem ungefüllten 
Raum auf der Seite als Kennzeichen einzelner Schreiber verwendet.” Fälschun- 
gen kopieren genau solche für typisch erachteten Merkmale,“ um eine falsche 
Einordnung nahezulegen.” Auch kann im gedruckten Buch eine Varianz im Satz- 
spiegel auf einen Raubdruck deuten. 


41 Bernhard Bischoff: Paläographie des römischen Altertums und des abendländischen Mittelal- 
ters. Berlin 32004 (Grundlagen der Germanistik 24), S. 183. 

42 Jakobi-Mirwald: Das mittelalterliche Buch, S. 168. 

43 Vgl. Claudine Chavanne-Mazel: »Expanding Rubrics for the Sake of a Layout: Mise-en-Page 
as Evidence for a Particular Scribe?«, in: Medieval Book Production Assessing the Evidence, hg. v. 
Linda L. Brownigg. Los Altos Hills 1990, S. 117-131, hier S. 122: »it is here that the divergence 
between the two scribes and their manuscripts begins. Apparently, the scribe of J1 did not like 
blank spaces. Indeed, it seems he had a horror vacui. Whenever an open space occurs, he tries 
to fill it, not with simple decoration but with text, in the form of an expanded rubric«. 

44 Anthony Grafton weist auch darauf hin, dass Falscher auch ihre Gegenwart im Auge behal- 
ten müssen. Vgl. Anthony Grafton: Forgers and Critics. Creativity and Duplicity in Western Schol- 
arship. Princeton 1990, S. 49-50: »He must give the appearance - the linguistic appearance as a 
text and the physical appearance as a document - of something from a period dramatically ear- 
lier than and different from his own. He must, in other words, imagine two things, what a text 
would have looked like when it was written and what it should look like now that he has found 
it.« Diese doppelte Ausrichtung des Falschers kann auch angenommen werden, wenn man nicht 
an Falschungen von Objekten aus fernen Zeiten denkt. 

45 Inder Diplomatik, in der die Echtheitskritik von besonderem Interesse ist, kann dabei etwa 
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Die Anwendung des Adjektivs »experimentell« auf diesen Ansatz, wie sie 
sich bei Carla Bozzolo und Ezio Ornato gefunden hat, dient wohl eher als Anspie- 
lung auf die Erfahrung allgemein und auf eine empiristische Grundhaltung, viel- 
leicht auch als selbstironische Metapher fiir eine noch tastend verfahrende, nicht 
etablierte Methode.“ Historische Situationen können nicht beliebig mit verän- 
derten Parametern reproduziert werden. Deshalb sind, wie oben ausgeführt, 
Beobachtungen von Störungen und Vergleiche nötig, um funktionale Zusam- 
menhänge zu erkennen. Aber auch die modale Analyse von historischen Buch- 
beständen ist mit Unsicherheiten verbunden. So können Kodizes mehrfach da- 
tiert sein, da alte Einheiten aufgelöst wurden und die Bestandteile zu neuen 
Einheiten gebunden wurden. Dies kann die statistische Auswertung erschweren. 
Ferner gibt es auch bei Formatangaben unterschiedliche Systeme, die auch von 
verschiedenen Bearbeitern nicht immer konsistent verwendet worden sind. Zu- 
dem ist die Zahl der Bücher, die untersucht werden, endlich und oftmals nicht 
sehr groß. Je nach ausgewählten Parametern können die Versuchsgruppen und 
damit auch die Aussagekraft der erzielten Ergebnisse klein werden.‘ Daher las- 
sen sich bei Kodizes und Beständen nicht immer zweckmäßig alle Parameter be- 
liebig miteinander kombinieren. 


die Konstruktion von Monogrammen relevant sein und deren Position im Verhältnis zu anderen 
Bestandteilen der Urkunde. So hält etwa Otfried Krafft mit Blick auf päpstliche Urkunden und 
die Prüfung der Authentizität fest: »Bisweilen stellt das Auftreten eines monogrammatischen 
Benevalete, das zu einem fest umrissenen und in Vergleichsstücken auftretenden Typus gehört, 
ein Argument gegen Fälschungsthesen dar, manchmal ist dadurch aber auch die echte Vorlage 
zu ermitteln.« (Otfried Krafft: Bene Valete. Entwicklung und Typologie des Monogramms in Urkun- 
den der Päpste und anderer Aussteller seit 1049. Leipzig 2010, S. 183). Zum Beispiel führt er an: 
»Abweichungen der innerhalb bestimmter Gruppen oft penibel eingehaltenen Proportionen und 
der Größe, auch der einzelnen Bestandteile, sind [...] erhebliche Verdachtsmomente. Dies gilt 
auch für die Stellung des Monogramms in Beziehung zur Rota und den Unterschriften der Kar- 
dinäle.« (Ebd., S. 183-184). 

46 Es gibt keine einheitliche Definition dessen, was unter dem Begriff des wissenschaftlichen 
Experimentierens zu verstehen ist, da dieser je nach Disziplin und Objekt durch unterschiedliche 
Vorgehensweisen geprägt ist. Unter anderem in den historischen Kulturwissenschaften ist eine 
eher metaphorische Auslegung des Begriffs »Experiment« gebräuchlich, vgl. Gunhild Berg: »Ex- 
perimentieren«, in: Über die Praxis des kulturwissenschaftlichen Arbeitens. Ein Handwörterbuch, 
hg. v. Ute Frietsch und Jörg Rogge. Bielefeld 2013, S. 140-141. 

47 Deshalb ist beispielsweise zweifelhaft, ob ein frequentistischer Wahrscheinlichkeitsbegriff 
und welcher Wahrscheinlichkeitsbegriff hier überhaupt zu verwenden ist. Eine Neigung oder 
Prospensität »to produce stable relative frequencies in the long run« ist hier jedenfalls nicht ein- 
fach nachprüfbar. (Vgl. Ian Hacking: »Prospensities, Statistics and Inductive Logic«, in: Logic, 
Methodology and Philosophy of Science, Bd. 4, hg. v. Patrick Suppes und Leon Henkin. Bucharest 
1971, S. 485-500, hier S. 485). 
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Möchte man beispielsweise alle Bibeln aus einem süddeutschen und einem 
norddeutschen Handschriftenbestand miteinander vergleichen, so mag sich fol- 
gendes Bild ergeben: In beiden Beständen finden sich zwei übliche lateinische 
Bibeln und zwei Exemplare, die als biblia pauperum benannt sind. Zudem sind 
diese vier erhaltenen Texte zwischen dem 11. und dem 15. Jahrhundert entstan- 
den. Wir haben es also mit verschiedenen Gattungen und pragmatischen Kontex- 
ten zu tun, die zudem nicht nur regionale, sondern auch zeitliche Differenzen 
aufweisen können. Wie kann bei dieser noch sehr überschaubaren Menge von 
Kodizes die Vergleichbarkeit gewährleistet werden? Wie können Unterschiede si- 
cher auf eine der genannten Variablen zurückgeführt werden? Wann ist die Gat- 
tung, wann der Ort oder die Zeit, die Bibliothek oder der konfessionelle Unter- 
schied derjenige Faktor, der den Ausschlag gibt? 

In der quantitativen Kodikologie sind Akzeptanz- und Ablehnungsbereiche 
nicht eindeutig festgelegt. Es gibt keine verbindliche Regelung, wie viel Abwei- 
chung tolerierbar ist und wie stark Korrelationen ausgeprägt sein müssen. In vie- 
len Fällen scheint es jedoch möglich zu sein anzugeben, wann eine Hypothese 
verworfen werden soll. Von besonderer Bedeutung kann somit die Falsifizierbar- 
keit sein.“ Durch den Vergleich mehrerer Handschriftenkorpora können zum 
Beispiel Aussagen spezifiziert, unzutreffende Verallgemeinerungen widerlegt 
und die Genauigkeit der Hypothesen gesteigert werden. D.h. Aussagen über 
große Einheiten können potentiell durch viele Proben falsifiziert, verfeinert oder 
bei einem gewissen Prozentsatz von Ausnahmen doch aufrechterhalten werden. 
An dieser Stelle kehrt die Notwendigkeit wieder, sich über die Akzeptanz eines 
solchen Prozentsatzes zu verständigen. Das oben dargelegte methodische 
Schema der quantitativen Kodikologie lässt sich mit einem solchen am Prinzip 


48 Hierbei lässt sich auch an Poppers Idee des »empirischen Gehaltes« eines Satzes als »Klasse 
seiner Falsifikationsmöglichkeiten« denken. Vgl. Karl R. Popper: Logik der Forschung. Tübingen 
61976 (Die Einheit der Gesellschaftswissenschaften 4), S. 84. Max Albert hat in ähnlicher Weise 
vorgeschlagen, den empirischen Gehalt für eine »falsifikationistische Testtheorie« zu gebrau- 
chen. Seine methodologische Regel besagt: »Maximiere den empirischen Gehalt bei gegebener 
Irrtumswahrscheinlichkeit.« (Max Albert: »Die Falsifikation statistischer Hypothesen«, in: Jour- 
nal for General Philosophy of Science 23 (1992), S. 1-32, hier S. 22). Donald A. Gillies, ein Schüler 
Poppers, hatte bereits vorgeschlagen, das Konzept der Falsifikation für statistische Beurteilun- 
gen zu verwenden, ohne allerdings auf den Begriff des empirischen Gehaltes einzugehen. Er be- 
tonte insbesondere, dass eine Hypothese abgelehnt werden kann, wenn sie eine untypisch ge- 
ringe Wahrscheinlichkeit aufweist. Vgl. Donald A. Gillies: »A Falsifying Rule for Probability 
Statements«, in: The British Journal for the Philosophy of Science 22 (1971), S. 231-261, hier S. 237: 
»If from a statistical hypotheses H we can deduce that ar. v. [i. e.: random variable] & has a fal- 
sifiable distribution D, and if C is a critical region associated with D, then if a value x of with 
x € Cis observed we regard H as falsified.« 
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der Falsifikation orientierten Ansatz verbinden. Der Ubergang von 3a zu 3b ent- 
spricht der Falsifikation einer bestimmten Hypothese. 


3 Gegenstände und Zugänge 


Der quantitative Zugang zu den Daten kann auf zweierlei Weise erfolgen: Zu- 
nächst kann man für eine Analyse auf diejenigen Daten zurückgreifen, die als 
sogenannte Metadaten in Handschriftenkatalogen vorliegen. In diese Datenkate- 
gorie fallen unter anderem Angaben zur Herkunft, zur Datierung, zum Inhalt und 
zur Sprache des Textes, zur Datierung, zum Format, zum Beschreibstoff, zur Her- 
stellungstechnik oder zur Blattzahl des Buches. Zu diesen Metadaten können 
weitere, durch Zählung und Vermessung gewonnene Daten zu Maßen und Pro- 
portionen,“ Häufigkeiten°’ sowie Positionswerte” hinzutreten. Der Skopus der 
statistischen Auswertung kann verschieden sein. Er kann einzelne Seiten, be- 
stimmte Abschnitte oder ganze Handschriften umfassen, er kann sich aber auch 
auf ganze Bestände oder auch Bestände verschiedener Provenienzen und Aufbe- 
wahrungsorte beziehen. Unter einem vergleichenden Gesichtspunkt können au- 
ßerdem einzelne Handschriften gleichen Inhalts und unterschiedlicher Herkunft 
statistisch untersucht werden. Zwischen dem Einzelobjekt und dem Vergleich 
ganzer Korpora gibt es offensichtlich verschiedene Abstufungen, die ebenfalls 
betrachtet werden können. Bei der Betrachtung einzelner Seiten, Handschriften 
oder Bestände lassen sich bei aller Beschränkung und ohne besondere histori- 
sche Perspektive bestimmte Thesen bereits überprüfen. So kann beispielsweise 
untersucht werden, ob bestimmte allgemeingültige Annahmen zur Seitengestal- 
tung oder Textgliederung zutreffend sind. 

Außerdem ist ein Verfahren des bildbezogenen Zugriffs erwähnenswert: Die 
Digitalisate der Buchseiten, die als Bilddateien vorliegen, können beispielsweise 
fortlaufend zu Bildmontagen zusammengestellt werden. Auf diese Weise ist dem 
Betrachter schnell ein intuitiver Eindruck zu vermitteln. Wie die Analyse der Me- 
tadaten kann auch die visuelle Analyse verschiedene Wege einschlagen: Eine 


49 Zum Beispiel Höhe und Breite des Seitenraumes, des Schriftraumes (Textspalten, Margina- 
lien) oder des Bildraumes (Initialen, Miniaturen); rechnerisches Verhältnis zwischen beschrifte- 
tem und freiem Raum. 

50 Zum Beispiel die Anzahl der Textspalten und der Zeilen im Schriftraum sowie die Anzahl der 
Initialen pro Seite. 

51 Zum Beispiel die Angabe der genauen Position von Layoutmerkmalen auf einer Buchseite. 
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Strategie kann als korpusbezogene Analyse bezeichnet werden und eine Art dia- 
chronen Querschnitt iiber einen gesamten Bestand liefern, etwa indem Seiten- 
stichproben aus allen Handschriften eines Skriptoriums zeitlich absteigend 
nebeneinandergesetzt werden. Eine zweite Strategie kann die Analyse ausge- 
wählter Einzelhandschriften verfolgen; die Bildmontage enthält dann alle Seiten 
einer bestimmten Handschrift. Sinnvoll erscheint dieses Verfahren etwa bei dem 
Vergleich ahnlicher oder identischer Werke in verschiedenen Manifestationen. 
Diese »visuelle Analyse« ist von einer Visualisierung statistischer Ergebnisse zu 
unterscheiden. Sie setzt keine statistischen Berechnungen voraus, vielmehr kann 
sie heuristisch für die statistische Auswertung genutzt werden. Sie kann auf Mus- 
ter und Veränderungen bestimmter Elemente im Seitenlayout hindeuten, deren 
statistische Behandlung relevant ist. In ähnlicher Weise können auch Metadaten 
ohne weitere statistische Auswertung in verschiedenen Diagrammen dargestellt 
werden und heuristischen Wert besitzen. 

Der statistischen Auswertung wiederum kann, wie bereits erwähnt, eine kau- 
sale oder funktionale Analyse folgen, die diese ihrerseits heuristisch verwendet. 
Demnach ergibt sich das Bild einer solcherart doppelten Heuristik. Zu bedenken 
ist jedoch, dass die visuelle Analyse bei sehr großen Datenmengen auch unüber- 
sichtlich wird und daher einen geringeren heuristischen Wert hat. Ähnlich wie 
beim Buch immer nur eine Doppelseite in den Blick genommen werden kann, legt 
auch die räumliche Begrenzung der Präsentation eine Grenze für die simultane 
Darstellung und Betrachtung von Digitalisaten fest. Allerdings können auf diese 
Weise mehr Seiten auf einen Blick betrachtet werden als nur eine Doppelseite. Es 
ergeben sich somit mindestens die folgenden Optionen für die quantitative Aus- 
wertung: 


1. Zugang 

a) Statistische Analyse der Metadaten 

b) Visuelle Analyse der Bilder oder Metadaten 
2. Gegenstand 


a) Seite oder Doppelseite 

b) Handschrift oder Teil einer Handschrift 
c) Bestand oder Teil eines Bestandes 

d) Bestände oder Teile von Beständen 


3. Zielrichtung 


a) Überprüfung von Hypothesen an einzelnen Objekten 
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b) Uberpriifung von Konstanz und Variation in vergleichenden Studien 
nach verschiedenen historischen Parametern, wie zum Beispiel der Her- 
kunft 


Die Zugänge, Gegenstände und Zielrichtungen lassen sich prinzipiell ad libitum 
miteinander kombinieren. Bestimmte Allianzen sind aber zuweilen plausibler als 
andere. Daten können statistisch ausgewertet werden (1a) oder in visueller Form 
dargestellt werden, um daraus Schlüsse über Eigenheiten und Veränderungen zu 
ziehen (1b). In dem einen Fall können alle Variablen in Form von rechnerisch 
abbildbaren Korrelationen ausgewertet werden. Im anderen Fall geht es darum, 
Größen in visueller Form darzustellen. Beide Zugänge sind ihrerseits mit ver- 
schiedenen Gegenständen kombinierbar: In den Blick genommen werden kön- 
nen so etwa jeweils sowohl das Gesamtkorpus der Handschriften (2c) als auch 
ausgewählte Handschriften (2b). Je nach Fragestellung können gegebene Annah- 
men zu der Handschrift oder dem Bestand überprüft (3a) oder Verteilungen mit 
denen anderer Bestände verglichen werden (3b). 


4 Komparative Kodikologie 


Die mehrfach erwähnte Idee vergleichender Studien ist in der Kodikologie nicht 
neu. Malachi Beit-Arie hat ihre Notwendigkeit unter dem englischen Stichwort 
der »comparative codicology« vor allem in Hinblick auf den Vergleich hebrä- 
ischer Schriften mit anderen Kodizes im Mittelmeerraum hervorgehoben: » Only 
comparative study of similar and even disparate codicological features, styles of 
book script and their changes in different, similar, opposing or self-contained 
cultures will offer us satifactory explanations and understanding.«.” Im Sinne 
eines komparatistischen Ansatzes lassen quantitative Verfahren auch hoffen, 
verschiedene, unter differenten historischen Bedingungen gewachsene Bestände 
zueinander ins Verhältnis zu setzen.” In Bezug auf kodikologische Parameter 
können die Ergebnisse positiv oder negativ sein. Positiv können sie heißen, wenn 


52 Malachi Beit-Arie: »Why comparative codicology?«, in: Gazette du livre medieval 23 (1993), 
S. 1-5, hier S. 2. Den Begriff hatte er in derselben Zeitschrift bereits ein paar Jahre zuvor verwen- 
det. Vgl. Malachi Beit-Arie: »Towards a Comparative Codicology«, in: Gazette du livre medieval 15 
(1989), S. 39f. 

53 Die Bezeichnung »komparativ« wird in diesem Zusammenhang in einem weiten Sinn ver- 
wendet. Der Vergleich beschrankt sich nicht auf Handschriften aus verschiedenen, wie auch im- 
mer definierten, Kulturräumen. 
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sich kodikologische Parameter in den untersuchten Beständen tatsächlich signi- 
fikant unterscheiden. Negativ können sie heißen, wenn kodikologische Muster 
unabhängig von diesen historischen Variablen konstant erscheinen.” Auch in 
diesem Sinne negative Resultate stellen unter Umständen wichtige Erkenntnisse 
dar. In der Vergangenheit wurden immer wieder Kandidaten für solche Konstan- 
ten vorgeschlagen, zum Beispiel der goldene Schnitt in der Buchgestaltung. 
Sollte einer dieser Kandidaten durch diese Untersuchungen nicht ausscheiden, 
wäre das kodikologisch ein interessanter Befund. Zu beachten ist dabei noch, 
dass Falsifikationen als epistemologisch strikter im Vergleich zu Verifikationen 
gelten können.” Ausbleibende Falsifikationen stärken aber in jedem Fall die 
Plausibilität der entsprechenden Behauptung. Eine solche Untersuchung erlaubt 
Fragestellungen, die ein kodikologisches Faktum mit historischen Umgebungs- 
variablen verknüpfen. In diesem Zusammenhang muss auch daran erinnert wer- 
den, dass »Systemvergleiche«, wie oben dargelegt, eines der wenigen Mittel sind, 
um überhaupt die möglichen Funktionen und funktionalen Äquivalente zu be- 
stimmen, die für eine historische Interpretation im Sinne einer funktionalen Ana- 
lyse notwendig sind. 

So ließe sich beispielsweise allgemein fragen, ob es Unterschiede bei der Ver- 
wendung von Illuminationen zwischen protestantischen, norddeutschen und ka- 
tholischen, süddeutschen Handschriften gibt oder ob eine Universitätsbibliothek 


54 Eine ähnliche Logik schlägt auch Beit-Arie vor. Vgl. Beit-Arie: »Why comparative codicol- 
ogy?«, S. 2: »Similar practices in different circumstances would prove that they were not condi- 
tioned by social, economic, or cultural context, but were universally inherent in the making of 
the codex. Similar practices in similar circumstances would prove that they were conditioned by 
those circumstances |...]. Different practices may be the consequence of factors other than tech- 
nologiacallsic!], such as aesthetic conventions, economic or scholarly needs.« Auch Marilena 
Maniacci betont diese beiden Perspektiven eines Vergleichs: »a ricostruire una »grammatica uni- 
versale< del codice, cioè a identificare gli elementi strutturali comuni alla maggior parte delle 
tradizioni artigiali [...], a far emergere differenze proprie ai singoli contesti e, eventualmente a 
correlarle al loro specifico sostrato socioculturale.« (Maniaci: Archeologia del manoscritto, S. 25). 
Im Gegensatz zu dem in dem vorliegenden Beitrag vertretenen Modell berücksichtigen Beit-Arie 
und Maniaci nicht die epistemologische Asymmetrie zwischen Falsifikation und Verifikation. 
Ein Bezug auf gesellschaftliche, ökonomische und kulturelle Umstände kennzeichnet die kom- 
parative Kodikologie dieser Prägung als ein Mittel der kausalen oder funktionalen Analyse. 

55 Besonders ausdrücklich hat Karl Popper bekanntlich diesen Punkt hervorgehoben, indem er 
die Falsifikation als Abgrenzungskriterium für empirische Sätze vorschlug. Vgl. Popper: Logik 
der Forschung, S.15: »Wir fordern zwar nicht, daß das System auf empirisch-methodischem 
Wege endgültig positiv ausgezeichnet werden kann, aber wir fordern, daß es die logische Form 
des Systems ermöglicht, dieses auf dem Wege der methodischen Nachprüfung negativ auszu- 
zeichnen: Ein empirisch-wissenschaftliches System muß an der Erfahrung scheitern können. « 
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und ein klösterliches Skriptorium unterschiedlichen Regeln folgen. Auch ist da- 
bei jedoch zu bedenken, dass Bestände sich historisch entwickeln und sich im 
Bestand norddeutscher Universitätsbibliotheken zum Beispiel auch Manuskripte 
aus einem bayerischen Chorfrauenstift befinden können. Zu bemerken ist aber, 
dass eine Spezifizierung die Aussagen verlässlicher werden lässt und Erkennt- 
nisse zu einzelnen Beständen nützlicher sein können als Spekulationen über 
»den protestantischen Norden« und »den katholischen Süden«. Aussagen über 
weitere Bestände und größere Komplexe lassen sich an kleinere Studien immer 
anschließen. 

Digitale Bedingungen - zum Beispiel die Aufbereitung von Handschriften- 
merkmalen in elektronischen Katalogen und Datenbanken - scheinen solchen 
Studien förderlich zu sein, da sie besondere Verarbeitungen ermöglichen. Eine 
Voraussetzung für solche vergleichenden Studien in größerem Stil ist aber das 
Vorliegen passender Daten. Soll die Auswertung mit Unterstützung des Compu- 
ters durchgeführt werden, sind besondere Anforderungen an diese zu stellen. In 
diesem Fall etwa müssen nicht nur die Bilder in entsprechender Qualität, son- 
dern auch die Handschriftenbeschreibungen der zu vergleichenden Bestände in 
Form von ähnlich strukturierten und standardisierten Metadaten vorliegen.” An- 
dernfalls stößt die automatische Verarbeitung schnell an ihre Grenzen. Um diese 
zu erleichtern, sind auch technische Schnittstellen von Vorteil. Unabhängig da- 
von ist für die Auswertung jedoch auch die kodikologische Kenntnis des For- 
schers notwendig. Er muss also über die untersuchten Bestände im Bilde sein. 
Auch wenn er selbst nicht der Bearbeiter des Bestandes ist, so ist doch eine 
Kenntnis des Forschungsstandes unumgänglich. Für den Wissenschaftler mag 
dies trivial sein, für den Computer ist dies eine aktuell kaum zu lösende Aufgabe. 
Der Rechner kann als Instrument der modalen Analyse jedoch nützlich sein, in- 
dem er etwa in Form von »Ausreißern« in den Daten auf möglicherweise bisher 
Übersehenes hinweist und damit Anlass gibt, auch scheinbar Banales zu hinter- 
fragen. 


56 Eine allgemeine Schwierigkeit, die je nach Gegenstand unterschiedlich schwer wiegt, ist die 
Differenz zwischen Handschrift und Digitalisat. Dies betonte unter anderem auch schon Thomas 
G. Tanselle: »There is no way that reproductions — regardless of what technology is developed 
in the future - can ever be equal of originals as documentary evidence, for there is no way of 
getting around the fact that they are one step (at least) removed from those originals« (Thomas 
G. Tanselle: »Reproductions and Scholarship«, in: Studies in Bibliography 42 (1989), S. 25-54, 
hier S. 38). 
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Anne Baillot 
Die Krux mit dem Netz 


Verkniipfung und Visualisierung bei digitalen Briefeditionen 


Abstract: While web resources tend to work with visualizations and especially 
with network visualizations, the question of the hermeneutical impact of such 
presentation formats is seldom being considered as a key to understanding the 
changes in methods induced by Digital Humanities. The first part of this paper 
synthetizes the implications and biases of network visualizations in the context 
of literary studies. The second part presents concrete examples based on digital 
scholarly editions of letters, and the third part interrogates the reader’s position 
at the crossroads of text linearity and network visualization. 


Einleitung 


In seiner berühmt-berüchtigten Aufsatzsammlung Distant Reading sieht Franco 
Moretti wissenschaftliche Häresie darin, Literatur mit quantitativen Tools anzu- 
gehen. Aus seiner Sicht richtet sich diese Herangehensweise gegen das traditio- 
nelle Verständnis des literaturhistorischen Kanons, im theologischen Sinne des 
Wortes: 


[...] the trouble with close reading (and all of its incarnations, from the new criticism to de- 
construction) is that it necessarily depends on an extremely small canon. [...] At bottom, it’s 
a theological exercise — very solemn treatment of very few texts taken very seriously — 
whereas what we already need is a little pact with the devil: we know how to read texts, 
now let’s learn how not to read them.! 


Auf Seiten der Frömmigkeit werden verortet: close reading, Textkanon, sorgfal- 
tige Auslegungsarbeit, literaturwissenschaftliche Lesergewohnheiten, kleine 
Textmenge. Auf Seiten der Haresie stehen im Gegenteil ein Teufelspakt des Nicht- 
lesens, eine noch zu erfindende Methode und möglichst viele Texte. Die Tatsa- 


1 Franco Moretti: Distant Reading. London, New York 2013, S. 48. 
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che, dass es Moretti darum geht, den Kanon in Frage zu stellen, macht ihn durch- 
aus sympathisch: So weht ein frischer Wind in die Literaturgeschichte! Doch wie 
frisch sind heute noch quantitative Methoden, und tatsächlich wie häretisch? 

Die These, die hier vertreten wird, sieht die Bekehrungsmanöver in einer dia- 
metral entgegengesetzten Glaubensgemeinschaft: Eine Religion der Big Data gibt 
es wohl, und eines ihrer Evangelien nennt sich Netzwerkvisualisierung. Ohne 
Netzwerk geht nichts, alles ist Netzwerk. Sicherlich machen es zum einen die Da- 
tenflut und zum anderen die Verknüpfungen zwischen ebendiesen Daten nötig, 
sich Orientierung zu verschaffen. Im Zuge dessen wurde der Ideen- und Litera- 
turgeschichte der Rekurs auf Netzwerkanalyse aufgebürdet. Das Kreuz, das es zu 
schleppen gilt, ist eben das Netzwerk. Aber liefern Netzwerke und ihre Visuali- 
sierungen wirklich die Orientierung, die die Geisteswissenschaften brauchen? 
Wozu sind Netzwerke für die Literaturwissenschaft gut? Was erlauben sie uns zu 
machen, was wir anders nicht bewerkstelligen könnten? 

Ansätze zur Beantwortung dieser Fragen werden in drei Schritten vorgestellt. 
Zunächst werde ich basal mit der Frage »Was ist ein Netzwerk?« beginnen, um 
dann auf die Charakteristika einzugehen, welche dessen Anschaulichkeit prä- 
gen. Dabei geht es mir darum zu umreißen, was ein »gutes< Netzwerk ausmacht, 
d.h. ein Netzwerk, aus dem man aus literaturwissenschaftlicher Sicht sinnvolle 
Informationen gewinnen kann. Im zweiten Teil stelle ich digitale Briefeditionen 
vor (im Speziellen meine eigene) und was diese an Anknüpfungspunkten für 
Netzmodelle bieten. In einem dritten Teil gehe ich schließlich auf die Einbettung 
von Netzmodellen in die konkrete Textarbeit ein. 


1 Anschaulichkeit des Netzwerks 


In der Mathematik sind Graph und Netzwerk gleichbedeutend. Mit einem Graph 
bzw. Netzwerk wird ein komplexes mathematisches Objekt auf Punkte und Kan- 
ten reduziert und damit handhabbar gemacht. Ein solcher Graph kann visuell re- 
präsentiert werden (muss er aber nicht) und diese Visualisierung kann zweidi- 
mensional sein — oder nicht. Solche Darstellungen sind auch nicht zwangsläufig 
intuitiv.? 


2 Einen guten Einblick in die Vielfalt der möglichen Netzwerkvisualisierungen gibt Isabel Mei- 
relles: Design for Information. An introduction to the histories, theories, and best practices be- 
hind effective information visualizations. Beverly 2013. 
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Mit Punkten und Kanten kann man Beziehungen jeder Art repräsentieren. 
Mathematische Relationen sind in der Regel vergleichsweise abstrakt. In der 
Social Network Analysis geht es wiederum um Beziehungen in einem für Geistes- 
wissenschaftlerinnen und Geisteswissenschaftler greifbareren Sinne. Hinsicht- 
lich der Methodik werden die durch Kanten repräsentierten Beziehungen mit At- 
tributen versehen, die es möglich machen, die visuelle Repräsentation lesbarer 
zu gestalten, indem bestimmte Informationen visuell wiedergegeben werden. Die 
Richtung einer Beziehung kann gegenseitig oder einseitig sein: Dies kann etwa 
mit Pfeilen statt Strichen spezifiziert werden. Auf einem Netzwerk können dar- 
über hinaus Beziehungen unterschiedlicher Gewichtungen abgebildet werden, 
was wiederum durch Strichbreite oder Farbe signalisiert werden kann. Weitere 
Elemente wie Eigenvektor, Betweenness und Clustering können ebenfalls in die 
Modellierung einfließen, wofür statistische Methoden zur Verfügung stehen, die 
es auch möglich machen, statistische Verzerrungen gering zu halten. In der So- 
ziologie sind Netzwerke schon lange ein erprobtes, solides Tool.’ 

Die soeben genannten Elemente bestimmen die visuelle Repräsentation des 
Netzwerkes und tragen damit zur Verständlichkeit derselben bei. Auf die Litera- 
turgeschichte angewendet, kann man daraus Visualisierungen von beispiels- 
weise der geographischen Verteilung von mittelalterlichen Handschriften extra- 
hieren oder die Rezeption von Werken erfassen. Ein weiterer Aspekt, der noch als 
für die Literaturwissenschaft ertragreich ins Spiel gebracht werden kann, ist der- 
jenige der Spezifizierung von Beziehungen: Wer war mit wem, wann und zu wel- 
chen Themen in Kontakt? Bei solchen Fragestellungen besteht natürlich das 
Problem, dass sich anhand von Punkten und Kanten all diese Informationen 
nicht auf visuell lesbare Weise erfassen lassen, auch mit bunten Pfeilen und un- 
terschiedlich großen Punkten nicht. Es ist nicht möglich, beliebig viele Informa- 
tionen in einem Netzwerk unterzubringen, ohne dass es irgendwann seinen We- 
sensgrund, nämlich Beziehungen anschaulich zu machen, verliert. 

Insbesondere ist es für die Anschaulichkeit des Netzwerkes wichtig, dass es 
so wenig wie möglich netzförmig ist. Das Kreuz, um auf das Anfangsmotiv zu- 
rückzukommen, gilt es zu vermeiden. Damit ist gemeint, dass der Erkenntniswert 
geringer ist, wenn sich sehr viele Kanten kreuzen (was für ein Netzwerk charak- 
teristisch ist), als wenn die Informationen auf der Repräsentationsfläche verteilt 
sind. Aus »Hairballs< oder »Nudelhaufen« lässt sich wenig herauslesen. Die erste 
Qualität eines sauberen Netzwerkes ist, dass man Punkte und Kanten nun wirk- 
lich erkennen kann. 


3 Vgl. Aufbau, Grundanliegen und dargestellte Methoden in Christian Stegbauer und Roger 
Häußling: Handbuch Netzwerkforschung. Wiesbaden 2010. 
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Die ganze Kunst liegt also darin, die Elemente des Netzwerks und die Social 
Network Analysis-Faktoren so zu kalibrieren, dass der quantitativ angelegte, vi- 
suelle Output tatsächlich aussagekräftig ist. Es sind Softwares vorhanden, in die 
Korpusdaten eingepflegt werden können, die dann ein Netzwerk visualisieren.“ 
Meistens muss dann nachjustiert werden. Die Kanten können noch manuell so 
herum geschoben werden, dass sie einander nicht überlappen und das Netzwerk 
damit übersichtlicher wird. Eine Variante besteht darin, sie dynamisch vorzustel- 
len. 

Netzwerke erfassen Beziehungen. Sie basieren auf Verknüpfungen zwischen 
unterschiedlichen Elementen. Oft werden sie mit der daraus resultierenden visu- 
ellen Darstellung gleichgesetzt, was unter Umständen ein Vokabelmissbrauch 
ist. Netzwerke erlauben es, Wissenstransfer zu repräsentieren. Die Validität der 
repräsentierten Informationen jedoch hängt von der Qualität der Visualisierung 
ab. Die aus einem bestimmten Datensatz erzeugte Repräsentation kann - insbe- 
sondere bei historischen Daten — unterschiedliche Visualisierungsschwerpunkte 
haben. Ausgehend von demselben Datensatz kann man ein soziales Netzwerk, 
ein Egonetzwerk oder ein geographisches Netzwerk visualisieren.° 

Neben dem Design der Visualisierung spielt darüber hinaus die zugrundelie- 
sende Datenstruktur eine zentrale Rolle. In diesem Zusammenhang weist die Da- 
tenmodellierung in digitalen Briefeditionen ein ausgezeichnetes Potential auf. 


2 Netzwerktaugliche Datenmodelle: das Beispiel 
digitaler Briefeditionen 


Briefwechsel geben über Informationstausch Auskunft. Gelehrtenbriefwechsel 
dokumentieren insbesondere Wissenstransfer. Man schreibt sich, was man liest, 
was man lesen möchte, welche Bücher man zu erwerben wünscht oder erworben 


4 Die aktuell meist genutzten Tools sind palladio (ermöglicht das Erzeugen einer schnellen, ein- 
fachen Netzwerkvisualisierung), gephi (womit sich komplexere Netzwerke visualisieren lassen, 
wobei der Einarbeitungsaufwand und die informierte Wahl der Visualisierungsparameter von 
zentraler Bedeutung sind und eine intensive Einarbeitung voraussetzen), für geographische Da- 
ten der DARIAH-Geobrowser (der allerdings noch entwicklungsfähig ist), nodegoat (womit auf 
der Grundlage desselben Datensatzes unterschiedliche Netzwerktypen erzeugt werden können). 
Es werden laufend neue Werkzeuge entwickelt (vgl. beispielsweise für historische Daten the vis- 
torian: http://connectoscope.azurewebsites.net/vistorian/). 

5 Dass es auch andere Netzwerkformen gibt, zeigt Isabel Meirelles: Design for information, 
S. 62-63. 
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hat und welche Zeitschriften man ausleiht. Man teilt sich mit, was man schreibt, 
was man zu schreiben vorhat, man berichtet über das, was man geschrieben hat. 
Man schreibt sich, was man denkt: was man von Büchern hält, von Inszenierun- 
gen, von Persönlichkeiten, von Ideen, die in der Luft liegen. Theoretisch ließe 
sich von einem Gelehrten ausgehend ein Netzwerk seiner Lese-/Schreibgewohn- 
heiten, nach in den Briefen vorkommenden Ideen oder Autoren gegliedert, auf 
der Grundlage seiner Korrespondenz mit anderen Gelehrten zeichnen. Das ist 
sehr nah an dem, was co-citation-networks zeigen.® 

Von Briefen ausgehend ließe sich vergleichen, wie das Netzwerk variiert, je 
nachdem, an wen der Brief geht, d.h. beispielsweise welche Themen im Aus- 
tausch mit wem erwähnt werden. Auf diese Weise wäre eine Momentaufnahme 
der Positionierung eines gegebenen Gelehrten in einem gegebenen Kontext rea- 
lisierbar, ja gar eine dynamische Darstellung der Entwicklung derselben in einem 
längeren Korrespondenzzeitraum. Bedenkt man, wie umfangreich Gelehrtenkor- 
respondenzen etwa im 18. Jahrhundert sein konnten, wäre dies ein größeres Un- 
terfangen, aber kein unmögliches. Und wenn jeder Forscher und jede Forscherin 
etwas Ähnliches über den Autor, den er oder sie erforscht, anlegen würde, hätte 
man letztlich die Möglichkeit, diese Ego-Netzwerke entweder über Personen, 
über Werke, über Orte oder über Themen miteinander zu einem größeren Netz- 
werk zu verknüpfen. Vom Meta-Netzwerk ausgehend, würde man wiederum in 
immer kleinere Netzwerke hineinzoomen können. 

Dies ist allerdings aus mehreren Gründen eine abstrakte Konstruktion. Der 
erste Grund dafür, dass ihre Realisierung sich bestimmt noch verzögern wird, be- 
steht darin, dass alle Wissenschaftlerinnen und Wissenschaftler ihre Ergebnisse 
ähnlich präsentieren sollten, damit die Übergänge gesichert sind, was wiederum 
am besten funktioniert, wenn alle mit offenen Datenmodellen arbeiten.’ Dies 
kann, wenn nicht gar die tiefe Natur des Menschengeschlechts, dann zumindest 
diejenige eines grundsätzlich proprietär angelegten akademischen Systems mo- 
mentan nicht leisten. 


6 Eine grundlegende Studie der diesen Netzwerken zugrundeliegenden Strukturen liefert 
Camille Roth: »Socio-Semantic Frameworks«, in: Advances in Complex Systems, World Scienti- 
fic 16 (2013), S. 1-26, https://hal.inria.fr/halshs-00927322/document (28. Mai 2017). 

7 Zur Rolle von Datenstandards in der Ausarbeitung von digitalen Briefeditionen, s. Anne Bail- 
lot und Anna Busch: »Berliner Intellektuelle um 1800: als Programm. Uber Potential und Gren- 
zen digitalen Edierens«, in: Romantik digital, Themenschwerpunkt der Ausgabe September 2014 
von literaturkritik.de, http://www.literaturkritik.de/public/rezension.php?rez_id=19678&aus- 
gabe=201409 (31. Juli 2017). 
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Doch selbst wenn wir annehmen würden, dass es sich bei diesen Hindernis- 
sen nur um bedingte Rückschläge handelt, wären wir damit nur einen unbedeu- 
tenden Schritt weiter. Das eigentliche Problem liegt darin, dass Briefwechsel, wie 
sie handschriftlich und in Druckform überliefert wurden, nur einen begrenzt re- 
präsentativen Stellenwert haben. Zunächst einmal rein rechnerisch: Wir wissen, 
dass wir nur einen Bruchteil dessen zu lesen überliefert bekommen haben, was 
es je gab, und selbst diesen Bruchteil können wir nicht bewältigen. Deswegen 
schlägt Moretti vor, die Maschinen lesen zu lassen. So einfach, wie es klingt, ist 
es jedoch nicht: Handschriften sind für Maschinen mindestens ebenso schwer 
lesbar wie Captcha-Codes.? Will man darüber hinaus bei ein- und derselben Brief- 
konstellation die zeitliche Entwicklung beobachten, kann das Korpus unter Um- 
ständen die Zeitperioden sehr ungleichmäßig abdecken, sodass ein wissen- 
schaftlich befriedigender Vergleich zwischen den Perioden nicht bewerkstelligt 
werden kann. 

Grundsätzlich bietet die Arbeit mit Briefwechseln, weil die erhaltene Text- 
srundlage alles andere als vollständig ist, Grund zur Skepsis gegenüber ihrem 
Informationswert. Historikerinnen und Historiker können davon ausgehen, dass 
ein Verzeichnis, eine Liste, ein Protokoll als »wahre Informationsquellen< zu be- 
trachten sind. Es liegt in der textuellen Natur solcher historischen Dokumente, 
die Tatsachen möglichst objektiv zu beschreiben. Verzerrungen der Wirklichkeit, 
so kann man es annehmen, bleiben Randphänomene. Und sicherlich gibt es auch 
Historikerinnen und Historiker, die Briefe nach diesem Raster lesen, auszeich- 
nen, auswerten. 

Von einer solchen Annahme können wir als Literaturwissenschaftlerinnen 
und Literaturwissenschaftler nicht ausgehen. In Briefen geht es nicht nur darum, 
den eigenen Wissenshorizont zu dokumentieren, sondern auch darum, diesen zu 
inszenieren. Dichterische Freiheiten gehören genauso wie das Ausblenden von 
Informationen dazu, die man, aus welchen Gründen auch immer, ungern 
preisgibt. Diese Inszenierungsphänomene und die damit zusammenhängende 
Selbstzensur steigern sich bei jeder Erweiterung des Leserkreises, etwa in der 
Romantik, wenn Briefe nachgereicht, kopiert, vorgelesen etc. werden. Die Druck- 
versionen dieser Briefwechsel nun sind nichts anderes als verstümmelte Glieder 
eines Textkörpers, bei dem man kaum noch erahnen kann, wie das Original aus- 
gesehen haben mag. Für literaturwissenschaftliche Untersuchungen ist es ein- 
fach die Grundlage, mit der wir arbeiten: Es ist ein konstruierter Diskurs, damit 


8 Dieser Herausforderung stellt sich das Tool Transkribus, das sich allerdings noch in der Ent- 
wicklungsphase befindet: https://transkribus.eu/Transkribus/ (28. Mai 2017). 
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können wir auch im Sinne der traditionellen literaturwissenschaftlichen Metho- 
dik umgehen. Aber was tun, wenn man diese nun wirklich ziemlich umfangrei- 
chen Informationen in einer der Größenordnung gerechten Form, sagen wir, in 
Form eines Netzwerkes, erfassen wollen würde? Da wäre es schlicht unmöglich, 
allen textuellen Aspekten Rechnung zu tragen. Doch wie ich anfangs andeutete: 
In Netzwerken geht es weniger um die Komplexität als um die Anschaulichkeit. 
Es ist nun bei einem visualisierten Netzwerk so, dass es vereinfacht, um andere 
Dinge erkennbar zu machen als die, die man im »Kleinen« sieht. 

Aus meiner Sicht hat man mit Briefen, und spezieller mit Briefen, die Kultur- 
und Wissenstransfer dokumentieren, drei Optionen, um die dort enthaltenen In- 
formationen auf aussagekräftige Weise zu reduzieren und in Netzwerkform er- 
fassbar zu machen. Die erste besteht in dem, was mittlerweile beinahe alle digi- 
tale Briefeditionen, zwar unterschiedlich tief, dennoch in der Grundidee ähnlich, 
umsetzen, nämlich in der Auszeichnung von Entitäten. Personen werden erfasst 
und im Optimalfall mit einer GND-Nummer? versehen und damit mit weiteren 
biographischen Quellen verbunden. Wer es sich zeitlich leisten kann, mag auch 
noch die Familienbeziehungen zwischen den Personen erfassen. Dann ist der 
Aufwand schon beträchtlich, denn viele Personen haben keine GND-Nummer. 
Das erfordert eine projektspezifische (übrigens nicht interoperable) Alterna- 
tivsystematik. Außerdem ist ein gewisser Aufwand damit verbunden, eine GND- 
Nummer überhaupt zu finden (manchmal stößt man auf Doubletten oder Homo- 
nyme), ganz abgesehen vom Einreichen von Korrekturvorschlägen bei inkorrek- 
ten Einträgen, Fintragsvorschlägen, die ohnehin nur bestimmte Einrichtungen, 
nämlich Bibliotheken, machen dürfen, etc. Bei den häufigen frühen Todesfällen 
in den früheren Jahrhunderten sind oft mehrere Ehepartnerinnen und Ehepart- 
ner, Kinder und damit Verwandte zu verzeichnen und damit auch auszuzeich- 
nen. Bei vielen Frauen, die u. U. in der Briefkommunikation eine wichtige Rolle 
spielen können, fehlt manchmal jedwede biographische Auskunft. 

Wenn man einmal diese ganzen Informationen gesammelt und untereinan- 
der verknüpft hat, hat man leider im Grunde so gut wie nichts getan; die Ergeb- 
nisse sind bloß um einen Tick handfester als das, was ein Hobbygenealoge zu- 
stande bringen könnte. Biographische Daten sind ein besonders gut gehüteter 
Schatz der deutschen Geisteswissenschaften, einiges schlummert in den Archi- 
ven von ausgelaufenen Universitäts- und Akademievorhaben. 


9 Zur GND allgemein vgl. http://www.dnb.de/EN/Standardisierung/GND/gnd_node.html 
(28. Mai 2017). Bzgl. deren Anwendung bei digitalen Briefeditionen, vgl. Peter Stadler: »Norm- 
dateien in der Edition«, in: Editio 26 (2012), S. 174-183. 
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Aber: Gehen wir davon aus, dass wir nun einmal solche biographischen und 
Verwandtschaftsdaten in einem nicht proprietären, interoperablen Format bei- 
sammen hätten, lassen sich damit dennoch kaum aussagekräftige Netzwerke re- 
präsentieren. Interessanter wird es im Falle von Gelehrten oder Schriftstellern, 
wenn Zeiten, Orte und vor allem Werke in den Informationsfluss eingebaut wer- 
den. Gemeint sind dabei diejenigen, die die Briefschreiber verfassen und die sich 
womöglich zum Zeitpunkt, da der Brief verfasst wird, im Entstehen befinden oder 
in Rezensionen erwähnt werden, die wiederum in den Briefwechsel Eingang fin- 
den. Gemeint sind aber auch die fremden Werke, d. h. diejenigen, die von den 
Korrespondenzpartnerinnen und Korrespondenzpartnern gelesen oder inirgend- 
einer Form im Briefwechsel erwähnt werden. Damit lassen sich Wissens- und Kul- 
turtransfer greifbarer erfassen. 

Also kommt es auf die Erfassung von bibliographischen Daten bzw. Metada- 
ten an. In meiner ganzen Naivität dachte ich, dass Bibliotheken hierzu über ein 
Standardmodell verfügen. Nun ist es gar nicht so einfach, Werke hierarchisch zu 
erfassen. Das leistet beispielsweise das inzwischen anerkannte, hochgeschätzte 
FRBR-Modell.' Die Grundidee dabei ist, die unterschiedlichen »Versionen« eines 
Werkes zusammenführen zu können, beispielsweise unterschiedliche Editionen 
und Übersetzung der Ilias, die dann aber unter einem Eintrag »Ilias< subsumiert 
werden. Hat man einmal ein Werk in einer solchen Systematik erfasst, dann ist 
die Möglichkeit gegeben, dessen Streuungswege in all seinen Ausdrucksformen 
(Erstausgabe, spätere Auflagen, Nachdruck, Übersetzungen, ja gar Kommentare 
und Rezensionen hierzu) mit Personen, Orten und Zeiten in Verbindung zu brin- 
gen. Vielleicht schmückt sich der eine oder andere Briefschreiber mit dem Besitz 
oder der Lektüre eines Buches, das er tatsächlich nicht besessen bzw. nicht gele- 
sen hat. Aber auf der Suche danach, wie bestimmte Veröffentlichungen in den 
intellektuellen Diskurs Eingang gefunden haben, ist es erst einmal nicht so rele- 
vant, ob die Aussage zu dem Buch reine Fantasie oder Tatsache ist: Die diskursive 
Präsenz ist an sich informativ. 

Die Untersuchung von Autorenbibliotheken ist die ideale Ergänzung zu ei- 
nem solchen Referenz-System." Bei den vielen Goethe zugesandten Büchern sind 
in einigen noch heute ungeöffnete Papierbögen zu finden — und dies selbst bei 


10 Vgl. Barbara Tillet: What is FRBR? A conceptual Model for the bibliographic Universe. Library 
of Congress Cataloguing Distribution Service 2003, https://www.loc.gov/cds/downloads 
/FRBR.PDF (28. Mai 2017). 

11 Vgl. dazu neuerdings Michael Knoche: Autorenbibliotheken: Erschließung, Rekonstruktion, 
Wissensordnung. Wiesbaden 2015. 
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Biichern, die er so kommentierte, als hatte er sie ganz gelesen.” Aber nicht nur 
solche Epiphänomene lassen sich anhand von Autorenbibliotheken nachvollzie- 
hen. Sie ermöglichen es, eine ganze Reihe von Informationen zu strukturieren. 
Bei meinem Boeckh-Projekt lässt sich das Netzwerk an Informationen und Frage- 
stellungen am deutlichsten ausgehend von der Arbeit Boeckhs an seiner persön- 
lichen Bibliothek wiedergeben. Der Versuch, über eine thematische Verschlag- 
wortung Struktur zu schaffen, die vom anderen Schwerpunkt dieses Vorhabens 
ausgeht, nämlich dem philologischen Seminar, hat sich als wesentlich weniger 
ergiebig erwiesen. Dies hat zu der strukturellen Erkenntnis geführt, dass Boeckh, 
wie eine Reihe seiner Kollegen an der Berliner Universität, in der Korrespondenz 
nicht viel über seine Tätigkeit an der Universität erzählte und die Informationen 
hierzu in den internen Akten der diversen Gremien zu finden sind, während all 
seine Schriften — inklusive Briefen und Universitätsakten — mit bibliographi- 
schen Angaben durchsetzt sind, auch wenn in geringerem Maße hinsichtlich der 
Universitätsakten. 

Ich würde mir wünschen, dass das, was wir anhand von Boeckhs Bibliothek 
und Nachlass durchführen, etwa bei Tieck und Chamisso dupliziert werden 
könnte, um verglichen zu werden - alle drei waren anerkannte Größen in ihren 
jeweiligen wissenschaftlichen Bereichen. Wo überschneiden sich die Bibliothe- 
ken des Klassischen Philologen, des Dramentheoretikers und des Botanikers? 
Sind gemeinsame thematische Schwerpunkte eindeutig zu identifizieren? Dies 
würde eine grobe Orientierung geben und unter Umständen Standardwerke her- 
vorzuheben helfen. Ob das nun wirklich Plato, Shakespeare, Dante und 
Rousseau werden? Welche Autoren gehören überhaupt in diesen Kanon hinein? 

Ginge man dann einen Schritt tiefer in dieses ideale Informationsnetzwerk 
aus Autoren (Boeckh, Tieck, Chamisso) und Werken, kombiniert mit Veröffentli- 
chungszeiten, Veröffentlichungsorten, Verlegerinnen und Verlegern oder Spra- 
chen, könnte man vergleichen, wie der Wissenstransferzyklus in diesen drei 
Konstellationen funktioniert, d. h. wie Intertextualität im Sinne eines Zusammen- 
spiels zwischen Textrezeption und Textentstehung in die Werke eingeflochten 
ist. 

Auf der nächsten Granularitätsebene wäre es möglich, ein Werk oder eine 
besondere Auflage detaillierter zu verfolgen. Im Fall von Boeckh hat man den 


12 Paradigmatisch dafür sei sein Umgang mit Solgers Übersetzung der Sophokleischen Tragö- 
dien genannt, vgl. Anne Baillot: »Aktualität des Sophokles. Zur Übersetzung und Inszenierung 
der Antigone. Ein unveröffentlichter Brief von Rudolf Abeken an Karl Solger (Weimar, 1809)«, 
in: Zeitschrift für deutsche Philologie 120.2 (2001), S. 161-182. 
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Vorteil, dass ein Teil seiner Handexemplare noch erhalten ist, sodass man sich 
an Nutzungsspuren orientieren kann. 

Personen und Verwandtschaften, Orte, Zeiten, Werke, Institutionen sind ob- 
jektivierbar. Sie lassen sich nach den historisch übermittelten Daten erfassen und 
in einzelnen Fällen sogar mit Normdaten verknüpfen. Ein weiteres, weitestge- 
hend objektivierbares Element, das ebenfalls ohne die Befürchtung ausgezeich- 
net werden kann, Opfer allzu großer literarischen Verzerrungen zu werden, ist 
die Schüler-Lehrer-Beziehung. Diese lässt sich daran festmachen, wer bei wem 
Vorlesungen hörte. Darunter lassen sich ebenfalls private Vorlesungen subsu- 
mieren, wie sie etwa vor der Universitätsgründung in Berlin gehalten wurden. In 
einem weiteren Verfeinerungsschritt könnte man die daraus gewonnenen Fr- 
kenntnisse anhand der Widmungen von Dissertationen oder sonstigen Veröffent- 
lichungen ergänzen, wobei ich nach Gefühl behaupten würde, dass die meisten 
Autoren, die ihrem Meister ein Werk widmen, bei diesem mindestens einmal eine 
Vorlesung gehört haben, sodass der Erkenntnismehrwert aus den Widmungen 
wahrscheinlich nicht so groß sein würde. Heranzuziehen wären sie wohl eher, 
wenn es darum ginge, die Intensität oder die Qualität dieses Lehrer-Schüler-Ver- 
hältnisses mit zu berücksichtigen. 

Doch wer entscheidet das? Hierbei kommt man zur zweiten Form der Aus- 
zeichnung zu Zwecken der Netzwerkrepräsentation, die es bei Briefen sinnvoller- 
weise geben kann, nämlich nicht faktengestütztes, sondern interpretierendes 
Tagging. Um die variierende Kantenbreite in einer Netzwerkvisualisierung zu de- 
finieren, stützt man sich in der Regel auf belegte Interaktionen: Wenn nur ein 
Brief zwischen zwei Personen ausgetauscht wurde, ist die Kante dünner, als 
wenn es zwei sind etc. Ich bin im Falle von Briefen von Gelehrten-, Schriftstelle- 
rinnen und Schriftstellern demgegenüber zurückhaltend. Die Grenze zwischen 
Befund und Interpretation ist an dieser Stelle sehr schwer zu ziehen und kor- 
pusabhängig. Zum einen haben wir bezüglich historischer Daten das bereits er- 
wähnte Problem, dass wir oft nicht wissen, wie repräsentativ das jeweilige Kor- 
pus ist. Zum anderen ist die Definition von Wichtigkeit immer Ermessenssache. 
Die Intensität einer Beziehung lässt sich so leicht nicht auf eine Zahl an ausge- 
tauschten Briefen reduzieren. Aufgrund der Tatsache, dass mehr Briefe ausge- 
tauscht wurden, lassen sich nur wenig zuverlässige Rückschlüsse auf die Inten- 
sität einer Beziehung ziehen. Einige Personen schreiben seltener, aber längere 
Briefe. Andere Personen sind einfach schlampige Briefschreiberinnen und Brie- 
feschreiber, aber sie empfinden trotzdem die Beziehung mit dem Briefpartner 
bzw. der Briefpartnerin als intensiv. Einige Briefwechsel werden unterbrochen, 
weil die Korrespondenzpartnerinnen und Korrespondenzpartner sich sehen, was 
wiederum sowohl Intensivierung als auch Entfremdung bedeuten kann. Man 
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kommt hier um ein semantisches Tagging und damit um eine Interpretation nicht 
herum. 

Nehmen wir die Lehrer-Schüler-Verhältnisse oder die Verwandtschaftsver- 
hältnisse. Der romantische Diskurs und spezieller der romantische Briefdiskurs 
pflegt diese Kategorien auch metaphorisch einzusetzen. Brüder und Väter gibt es 
damit jede Menge mehr, als es die Stammbäume verzeichnen. So wäre es auch 
sicherlich interessant, in bestimmten Intellektuellenzirkeln zwei Bäume zu ver- 
gleichen: den faktischen und den metaphorischen, etwa mit Blick auf die soziale 
Herkunft und Öffentlichkeitswirksamkeit beider Abzweigungen. Aber an dieser 
Stelle greifen literarische Inszenierungsphänomene besonders stark, insofern 
lässt sich womöglich keine zuverlässige quantitative Herangehensweise an diese 
Fragestellung sinnvoll umsetzen. Solche Untersuchungen sind dazu verdammt, 
sich im Bereich der Fallstudie zu bewegen. 

Doch wäre es nicht schön, wenn man tatsächlich eine dritte Art von Aus- 
zeichnung einsetzen könnte, die beide Aspekte kombiniert, eine Mischung aus 
textinhärenter semantischer Struktur und objektivierbaren Entitäten, die als 
Schnittstellen fungieren können? Jochen Strobel entwickelt momentan für die 
Romantik eine solche semantische Struktur, die es vielleicht zumindest für die 
Zeit um 1800 möglich machen wird, die Briefwechsel ausgehend von Inhalten 
sowie Schreibhabitus miteinander zu verknüpfen. Besonders interessant daran 
ist, dass eben solche Kategorien wie »Romantik< dadurch einen erneuerten heu- 
ristischen Wert gewinnen können.” 

Damit verbunden ist die Frage des methodischen Instrumentariums, des Vo- 
kabulars, der inhaltlichen Ansprüche - und letztlich die Frage danach, was Text 
ist und aussagt. 


3 Text als Datennetz / Netzwerk als Lesehaltung 


In diesem letzten Teil möchte ich auf das Verhältnis von Netzwerkmodell und 
Textverständnis eingehen. Ich bleibe beim Beispiel meiner digitalen Edition,” 
weil ich sie gut kenne, aber das Argument könnte anhand von anderen wissen- 
schaftlichen digitalen Ressourcen ebenso auf denselben Punkt gebracht werden. 


13 Erstmalig dargestellt von Jochen Strobel: »Digitale Briefedition und semantische Erschlie- 
Bung. Von den Briefen der Jenaer Romantikergeneration zur Edition der Korrespondenz August 
Wilhelm Schlegels«, in: Editio 28 (2014), S. 151-174. 

14 Briefe und Texte aus dem intellektuellen Berlin um 1800, www.berliner-intellektuelle.eu 
(28. Mai 2017). 
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Zum einen ist diese digitale Edition baumf6rmig strukturiert, was nicht zu- 
letzt an der Grundstruktur der ihr zugrundeliegenden Kodiersprache XML liegt. 
Zum anderen aber wurden Querverbindungen eingebaut, sodass die Netz- 
werkstruktur ebenfalls präsent ist. Einen Teil dieser Querverbindungen habe ich 
bereits vorgestellt: Entitäten, Kodierung von Beziehungen durch alle Korpora 
hindurch. Genau betrachtet, hat man auf dieser Ebene mit sich kreuzenden Bäu- 
men zu tun, mit vernetzten Informationen, nicht mit Netzwerken als Repräsenta- 
tionen von Beziehungen. 

Die Achillesferse dieser digitalen Edition liegt darin, dass sie nicht einleuch- 
tend vermittelt, welche Texte sie zu lesen bietet. Es ist nicht »A. W. Schlegel, die 
Briefe« oder »Carl Maria von Weber, gesamte Werke«, ja auch kein »Heinrich 
Heine-Portal«. Es sind mehrere Autoren, mehrere Textsorten, mehrere Spra- 
chen, mehrere Zeiten, mehrere Orte. Daher liegt der eigentliche Wert dieser 
Edition darin, dass sie es möglich macht, gemeinsame Netzwerkstrukturen er- 
kennbar und greifbar zu machen - und zwar in Texten, die einer gemeinsamen 
historischen Konstellation entstammen. Doch woran können diese Netzwerke 
festgemacht werden? Wie kann man sie darstellen? 

Was die Autoren betrifft, war es möglich, kanonische Größen der Literatur- 
und Wissenschaftsgeschichte wie Tieck, Chamisso und Boeckh mit Nebenfiguren 
der literarisch-wissenschaftlichen Szene unter ein Dach zu bringen. So wurde un- 
ter anderem versucht, diese Akteure in übergeordnete Gruppen einzubetten, wie 
etwa die ausschlaggebende Institution (Berliner Universität) oder gelehrte Gesel- 
ligkeit (Nordsternbund). Gezeigt werden konnte damit nicht zuletzt, wie zutref- 
fend und erkenntnisreich die Kategorie der »Intellektuellen« für die kultur-, lite- 
ratur- und wissenschaftshistorische Erforschung der Sattelzeit ist.’ 

Was die Textgattungen angeht, bestand die Herausforderung darin, dass bei- 
nahe jeder Text eine Gattung für sich hätte ausmachen können. Damit diese Ka- 
tegorisierung überhaupt Sinn macht, war es nötig, sie auf eine überschaubare 


15 Vgl. Digitale Edition der Korrespondenz August Wilhelm Schlegels, http://august-wilhelm- 
schlegel.de/briefedigital/ (28. Mai 2017); Carl Maria Weber Gesamtausgabe, http://www.weber- 
gesamtausgabe.de/ (28. Mai 2017); Heinrich-Heine-Portal, http://www.heine-portal.de/ (28. Mai 
2017). 

16 Vgl. Anne Baillot: »Berliner Intellektuelle um 1800. Eine kontroverse Kategorie und ihre An- 
wendbarkeit im digitalen Zeitalter«, in: Virtuosen der Öffentlichkeit? Friedrich von Gentz (1764- 
1832) im globalen intellektuellen Kontext seiner Zeit, hg. von Gudrun Gersmann, Friedrich Jaeger 
und Michael Rohrschneider. April 2016, http://www.historicum-estudies.net/epublished/virtu- 
osen-der-oeffentlichkeit/digital-intellectuals/berliner-intellektuelle-um-1800-eine-kontroverse- 
kategorie-und-ihre-anwendbarkeit-im-digitalen-zeitalter/einleitung/ (31. Juli 2017). 
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Anzahl zu reduzieren. Dafiir wurden einige Texte mehreren Gattungen zugeord- 
net (bei Rezensionen in Briefform, bei Briefromanen wurde die Briefkomponente 
auf der Grundlage der Adressierung beispielsweise berücksichtigt, ebenso bei Be- 
richten, die an das Ministerium adressiert waren). Unter der Gattung »Brief« wird 
damit eine mediale Vielfalt zu lesen gegeben. 

Online stellt sich besonders akut die Frage nach der Textlinearität. Es werden 
srundsätzlich mehrere Ansichten zur Auswahl gestellt. Die pdf-Version ist nicht 
dazu da, ein Buch zu ersetzen, sondern sie dient als Lesehilfe für größere Text- 
mengen. Interessanter ist mit Blick auf die Frage nach der Linearität die html- 
Ansicht. Innerhalb der Transkriptionen sind Pop-ups eingebaut, d. h. Elemente, 
die manchmal da sind, manchmal nicht. Sie erfordern, dass der Leser nicht nur 
mit den Augen, sondern auch mit der Maus liest, denn die Mausbewegung ist es, 
die die Pop-Ups herbeiruft. Darüber hinaus hat die Schrift der ausgezeichneten 
Elemente eine andere Farbe. Die gestrichenen Passagen sind ebenfalls mit Farbe 
hinterlegt. So, wie die traditionelle Druckedition ihre eigenen Codes entwickelt 
hat, hat das Digitale auch Codes, auf die man sich erst einmal verständigt haben 
muss, um den Text lesbar zu machen. Allerdings sind das mehr visuelle als tex- 
tuelle Zeichen: Farbspiele, Ein- und Ausblendung etc. 

Das Visuelle spielt in digitalen Umgebungen eine vergleichsweise wichtigere 
Rolle als in Büchern. Schwarz-weiße Webseiten gibt es in der Regel nicht. Sicher- 
lich, das Blättern wurde in digitalen Umgebungen emuliert, genauso wie viele 
andere Lesegesten. Doch eine eigene Leselogik bürgert sich ein und damit eine 
andere Lesekompetenz. Wenn ein Wort in einer anderen Farbe ist, wissen wir, 
dass es anklickbar ist. Wenn wir eine Webseite öffnen, wissen wir, dass es ir- 
gendwo eine »Suche«, irgendwo einen >Kontakt« geben wird, sehr wahrscheinlich 
in einem Feld oben, unten oder am Rand. 

Viertens kommt noch das Leserverständnis: Netzwerke lesen zu können ist 
eine eigene Kompetenz. Wie können wir diese neuartige Lese- bzw. Analysekom- 
petenz erlernen, wann können wir sie voraussetzen? In meiner Idealvorstellung 
würde — wie bei A.W. Schlegel die Wordcloud” - die Startseite der Briefe und 
Texte aus dem intellektuellen Berlin um 1800 ein Netzwerk repräsentieren, von 
dem ausgehend der Leser in die Texte einsteigt. Im Moment wird dem mit Links 
und Text abgeholfen, aber das macht nur klar, dass es für ein Netzwerk mehr als 
nur der Verknüpfung bedarf: Es muss die Verlinkung, ihre Qualität, ihre Intensi- 
tät, ihre Bedeutung anschaulich gemacht werden. Eine solche Visualisierung für 


17 Vgl. Digitale Edition der Korrespondenz August Wilhelm Schlegels. 
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die Textarbeit fruchtbar zu gestalten, ist nach wie vor eine Herausforderung, so- 
wohl fiir Literaturwissenschaftlerinnen und Literaturwissenschaftler als auch fiir 
andere Geisteswissenschaftlerinnen und Geisteswissenschaftler. 


Zum Schluss dürfen ein paar Worte über die Verortung der literaturwissenschaft- 
lichen Arbeit in einem solchen Unterfangen nicht fehlen. Im Rahmen dieser digi- 
talen Edition war die Zusammenarbeit mit Bibliotheken und Archiven von 
zentraler Bedeutung. Dabei blieb der Workflow für den unmittelbar sichtbaren 
wissenschaftlichen Ertrag unökonomisch. Eine ganze Reihe von Informationen, 
die zur Realisierung solcher Netzwerke nützlich sind, ist nicht im Haupttext zu 
finden, sondern in den Metadaten. Diese Metadaten haben wir nun zu einem gro- 
ßen Teil manuell erfasst und können sie in Kalliope aus Formatgründen zurzeit 
nicht einfließen lassen. Dabei wäre eine gegenseitige Anreicherung durch For- 
schung, Archiv und Bibliothek das Sinnvollste. Netzwerkvisualisierungen sind 
ein gemeinsames Handwerkszeug der Erschließung und der wissenschaftlichen 
Aufbereitung.” 

Aus meiner Sicht besteht die Aufgabe der Literaturwissenschaft darin, die 
Schnittstelle zwischen Makrovisualisierungen und kleinteiliger Textarbeit zu ei- 
nem Ort des Nachdenkens zu machen. Es gilt, die Verzerrungen zu nennen, aber 
auch den Ertrag für die Forschung wahrzunehmen. Es gibt noch viel zu tun, um 
Netzwerke lesbar zu machen und diese »lesen< zu können. Auf dem Weg dahin 
können wir über unser eigenes Textverständnis noch eine Menge lernen, so zu- 
mindest zwei Häretiker, die es letztlich auch zu Aposteln geschafft haben, näm- 
lich Deleuze und Guattari: 

»Ecrire n’a rien a voir avec signifier, mais avec arpenter, cartographier, méme 
des contrées a venir. [...]«' 


18 Kalliope hat in seiner 2015 herausgebrachten neuen Version Netzwerkvisualisierungen ein- 
gebettet; vgl. Kalliope-Verbund, http://kalliope-verbund.info/de/ueber-kalliope/tourdhori- 
zon.html#top (28. Mai 2017), den Punkt »Korrespondenznetzwerke«. Zur Zusammenarbeit zwi- 
schen Forschung und Kulturerbeeinrichtungen, s. Laurent Romary, Mike Mertens und Anne 
Baillot: »Data fluidity in DARIAH — pushing the agenda forward«, in: Bibliothek. Forschung und 
Praxis 39.3 (2016), S. 350-357. 

19 Gilles Deleuze und Félix Guattari: Mille Plateaux. Paris 1980, S. 11. Weitere theoretische An- 
sätze sind ebenfalls zu finden in Anne Baillot: «Reconstruire ce qui manque - ou le déconstruire? 
Approches numériques des sources historiques«, in: Digital Humanities Quarterly (vsl. 2017). 
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Julia Lossau 
Der Raum und das Quantitative 


Abstract: Situated at the »great divide< between natural science, social science 
and the humanities, geography, as an academic discipline, traditionally encom- 
passes both qualitative and quantitative dimensions. This paper explores the re- 
lations between »space« - the discipline’s central notion -, on the one hand, and 
dimensions of the quantitative, on the other hand. In order to do so, three spatial 
representations are discussed which have played an important role in the disci- 
pline’s history: (1) landscape, (2) abstract space, and (3) digital space. It is argued 
that in employing these representations, geographers have tended to background 
the qualitative aspects of space, thereby consolidating the prevalent assumption 
that the qualitative and the quantitative represent two different ontological 
realms. 


Einleitung 


Der vorliegende Beitrag hat mit der fachwissenschaftlichen Geographie eine Dis- 
ziplin zum Thema, die sich nur in Teilen als Geisteswissenschaft versteht. Das 
Fach befindet sich an der Schnittstelle zwischen Naturwissenschaften einerseits 
sowie Sozial-, Kultur- und Geisteswissenschaften andererseits. Es kann damit 
beispielhaft fiir eine >alte< Scientia Quantitatis stehen, die traditionell für sich 
beansprucht, zugleich Scientia Qualitatis zu sein — oder umgekehrt. Auch die Hu- 
mangeographie, aus deren Perspektive der vorliegende Beitrag verfasst ist,’ be- 
findet sich an einer Schnittstelle, und zwar der Schnittstelle zwischen qualitati- 
ver und quantitativer Methodologie. Zwar gelten beide Methodologien de jure als 
gleichwertig. Dennoch genießen die quantitativen Methoden der empirischen So- 
zialforschung de facto immer noch einen gewissen Glaubwürdigkeitsbonus, der 
im Fall der Geographie wohl aus der naturwissenschaftlichen Vergangenheit des 
Faches heraus zu erklären ist.? 


1 Vgl. Julia Lossau: »Räume von Bedeutung. Spatial turn, cultural turn und Geographie«, in: 
Kommunikation, Gedächtnis, Raum, hg. v. Moritz Czaky und Christoph Leitgeb. Bielefeld 2009, 
S. 29-43. 

2 Zur Bedeutung der Naturwissenschaften für den Siegeszug quantitativer Methoden vgl. 
Menke (in diesem Band). 
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Aus humangeographischer Sicht gibt es den Raum im Singular ebenso wenig 
wie das Quantitative - insofern ist der Titel dieses Beitrags buchstäblich vermes- 
sen. Es gibt lediglich unterschiedliche Formen, Raum zu konzeptualisieren. Drei 
dieser Formen finden sich in Abbildung 1. Jede für sich versinnbildlicht eine be- 
stimmte Epoche in der geographischen Disziplingeschichte; alle drei stehen für 
ein spezifisches Verhältnis von Qualitativem und Quantitativem und damit für 
eine gewisse Art von geographischem Arbeiten. 


Abb. 1: Qualitativ/quantitativ: drei Raumformen 


Das Bild auf der linken Seite soll im Rahmen dieses Beitrags für eine qualitative 
Raumvorstellung stehen. Vieles an diesem Bild ist ganz und gar nicht qualitativ 
— wie beispielsweise die vielen Nullen und Einsen, die Computer verarbeiten 
mussten, damit es hier abgedruckt werden konnte. Was daran vielleicht qualita- 
tiv ist, das sind die ästhetischen und emotionalen Sinngehalte, die sich im Bild 
verdichten und eine Landschaft hervorbringen. Das Bild in der Mitte mutet hin- 
gegen quantitativer an. Durch die symmetrische Anordnung der Punkte, Kreise 
und Linien, die mit mathematischer Abstraktheit assoziiert ist, erscheint es eher 
als formale Abbildung denn als eigentliches Bild. Auf der rechten Seite ist 
schließlich wieder ein Bild zu sehen, aber eben kein »richtiges«, mit Pinsel, Pa- 
lette und »Herz< gemaltes, sondern ein computergeneriertes Bild - ein digitales 
Raumbild. 

Ausgehend von den drei Raum-Bildern behandelt der vorliegende Beitrag die 
Frage, in welchem Verhältnis der Raum - immer gedacht im Plural und in Form 
verschiedener Raumvorstellungen — zum Quantitativen steht, das sich bei nähe- 
rer Betrachtung in ganz unterschiedliche Formen von Zählbarkeit auflöst. In sei- 
nem Interesse für die Qualitäten des Quantitativen bezieht sich der Beitrag auf 
innerdisziplinäre Raumvorstellungen oder -modelle, die für die Geschichte der 
Geographie von Bedeutung sind und in denen sich quantitative Aspekte auf je 
spezifische Weise mit qualitativen Aspekten verbinden. Nicht behandelt wird 
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hingegen die Vielzahl der »Jdurch und durch: qualitativen, an Praktiken und Sym- 
bolisierungen, an Relationen und Signifikationen interessierten Raumvorstellun- 
gen, die sich in der Geographie seit den 1980er-Jahren durchzusetzen begannen? 
und die im Zuge der kulturtheoretischen Wenden der letzten drei Jahrzehnte zum 
humangeographischen Mainstream geworden sind.” Stattdessen wird im ersten 
Abschnitt das Raummodell der Landschaft untersucht; der zweite Abschnitt wid- 
met sich dem abstrakten geographischen Raum, und im dritten Abschnitt wird 
eine kurze Kartierung des digitalen geographischen Raums vorgenommen. Die 
Analyse von Raumvorstellungen wird dabei vor allem als Analyse der mit ihnen 
verbundenen Gesellschafts- und Wissensordnungen verstanden - und deren po- 
tentieller oder aktueller Herausforderung durch die Auffassung, »dass alles auch 
ganz anders sein kénnte«.° 


1 Landschaft 


An den deutschsprachigen Universitäten wurden geographische Lehrstühle in 
nennenswertem Umfang seit der zweiten Hälfte des 19. Jahrhunderts eingerich- 
tet.° Neben der Erdoberfläche war dabei die Landschaft das Objekt, das die natur- 
wissenschaftlichen Zweige des Faches einerseits und die sozial-, kultur- und geis- 
teswissenschaftlichen Zweige andererseits zusammenzuhalten im Stande war. 
Mit anderen Worten ermöglichte es die Landschaft dem noch jungen Fach, sich 
nach außen abzugrenzen und nach innen zu integrieren. Alfred Hettner, einer 
der einflussreichsten Geographie-Theoretiker seiner Zeit, beschreibt die Bedeu- 
tung der Landschaft für das Fach im Jahr 1893 mit folgenden Worten: 


3 Als ein Meilenstein auf dem Weg zur Versozial- und Verkulturwissenschaftlichung der Geo- 
graphie gilt die publizierte Fassung der Dissertation von Benno Werlen: Gesellschaft, Handlung 
und Raum. Grundlagen handlungstheoretischer Geographie. Stuttgart 1987. 

4 Ebenfalls nicht in den Blick genommen werden daher die Versuche der letzten fünfzehn 
Jahre, die»durch und durch« qualitativen Räume etwa durch lexikometrische Verfahren zu quan- 
tifizieren; s. dazu z. B. Annika Mattissek: Die neoliberale Stadt. Diskursive Repräsentationen im 
Stadtmarketing deutscher Großstädte. Bielefeld 2008. 

5 Julia Lossau: Die Politik der Verortung. Eine postkoloniale Reise zu einer anderen Geographie 
der Welt. Bielefeld 2002, S. 114. 

6 Zuden gesellschaftspolitischen Hintergründen s. Heinz Peter Brogiato: »Geschichte der deut- 
schen Geographie im 19. und 20. Jahrhundert. Ein Abriss«, in: Allgemeine Anthropogeographie, 
hg. v. Winfried Schenk und Konrad Schliephake. Gotha u. a. 2005, S. 41-81. 
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Alexander von Humboldt ist auch dadurch der Altmeister der Geographie, dass er als einer 
der ersten (...) Landschaften aufgestellt und meisterhaft charakterisiert hat (...). Auch Karl 
Ritter hat sich große Verdienste in dieser Richtung erworben; sein großes Werk über Afrika 
und Asien ist durchaus nach natürlichen Landschaften gegliedert. Die glückliche Aufstel- 
lung einer Landschaft hat große wissenschaftliche Bedeutung, weil erst sie die übersichtli- 
che Schilderung des Erdraumes und die Unterscheidung von anderen Erdräumen möglich 
macht.’ 


Eine Landschaft wurde als »Gesamtinhalt eines Teilstücks der Erdoberfläche« be- 
griffen,® in dem die verschiedenen natürlichen Faktoren (an) der Erdoberfläche 
(wie Oberflachengestalt, Bodenbeschaffenheit, Klima, Vegetation etc.) einerseits 
und die jeweiligen sozial-kulturellen Verhältnisse andererseits eine Einheit bil- 
deten. Das holistische Landschafts-Konzept erlaubte es, die »kausalen Wechsel- 
beziehungen« zwischen den skizzierten Sachbereichen zu untersuchen und jede 
Landschaft als individuellen Ausdruck des universellen Zusammenspiels von 
Natur und Kultur zu beschreiben. Dass das Programm der Landschaftsgeogra- 
phie entsprechend durch latente bis manifeste geodeterministische Gehalte ge- 
kennzeichnet war, gilt in der geographischen Literatur mittlerweile als Gemein- 
platz.? 

Für den Kontext dieses Bandes von größerem Interesse als der Geodetermi- 
nismus (oder auch der ebenfalls hinlänglich diagnostizierte Antimodernismus) 
der Landschaftsgeographie sind denn auch die Versuche, Landschaft zu objekti- 
vieren; die konkreten Landschaften in naturwissenschaftlichen Kategorien zu er- 
fassen, sie voneinander abzugrenzen und Regelmäßigkeiten in ihrem Aufbau zu 
identifizieren. Die Probleme, die die Geographie mit der Vermessung und damit 
der Quantifizierung der Landschaft hatte, sollen anhand eines Zitats von Josef 
Schmithüsen (1909-1984) verdeutlicht werden: 


Offensichtlich gibt es eine untere Grenze der Größenordnung dessen, was als Landschaft 
begriffen werden kann. Noch niemand hat es fertiggebracht, diese Grenze zu definieren, 
obwohl es am konkreten Objekt darüber kaum jemals eine Meinungsverschiedenheit gibt. 
Wie ein paar Quarzkörner oder ein Feldspatkristall noch kein Granit sind, obwohl sie zu 
einem solchen gehören, so ist ein Teich, ein Acker oder ein Kirchdorf noch keine Land- 
schaft. Aber ein in Obstgärten gebettetes Dorf am Rande einer mit Kuhweiden erfüllten 


7 Alfred Hettner: »Über den Begriff der Erdteile und seine geographische Bedeutung«, in: Ver- 
handlungen des zehnten Deutschen Geographentages zu Stuttgart am 5., 6. und 7 April 1893, hg. v. 
Georg Kollm. Berlin 1893, S. 188-198, hier S. 193. 

8 Hans Bobek und Josef Schmithüsen: »Die Landschaft im logischen System der Geographie«, 
in: Erdkunde 3.2 (1949), S. 112-120, hier S. 115. 

9 Vgl. z. B. Benno Werlen: Sozialgeographie. Eine Einführung. Bern 2000. 
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Quellmulde mit Ackerzelgen und ein paar Wegen auf der angrenzenden Hochflache, Nie- 
derwald auf dem Grauwackenfels steilhängiger Tälchen, mit Wiesenstreifen im Grund und 
einem Touristengasthaus in einer ehemaligen Lohmühle am erlenumsäumten Bach, dieses 
zusammen kann schon die wesentlichsten Züge einer Landschaft ausmachen.'® 


In diesem Zitat wird Schmithüsen zum Landschaftsmaler: Er beschreibt einen 
konkreten Raumausschnitt so detailliert und liebevoll, dass vor dem inneren 
Auge seiner (landschaftskundlich geschulten) Leserinnen und Leser ein Bild der 
Landschaft entsteht. Damit macht er - implizit und im Grunde wider Willen - 
deutlich, worauf es beim Thema Landschaft ankommt: Dass es nämlich einen Be- 
trachter (oder eine Betrachterin) geben muss, vor dessen (oder deren) Auge die 
Landschaft überhaupt erst entsteht. Dieser (traditionell eben männliche) Be- 
trachter wird in Abbildung 2 durch die Personengruppe verkörpert, die im rech- 
ten Vordergrund zu sehen ist und die Landschaft durch ihre Präsenz und Per- 
spektive gewissermaßen rahmt. 


Abb. 2: Hans Thoma: Offenes Tal (um 1872) 


10 Josef Schmithüsen: Was ist eine Landschaft? Wiesbaden 1964 (Erdkundliches Wissen 9, Bei- 
heft zu Geographische Zeitschrift), S. 11. 
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Abstrakt formuliert kann man sagen, dass man die Welt als Landschaft - d.h. 
durch eine Landschaftsbrille - anschauen muss, wenn man eine Landschaft se- 
hen will. Anders herum ausgedrückt: Jemand, der (noch) keinen landschaftli- 
chen Blick einstudiert hat, kann auch keine Landschaft sehen. Davon kann sich 
überzeugen, wer im Großraumabteil reist und hört, wie Großeltern mit ihren En- 
kelkindern landschaftliches Sehen einüben. Die Großeltern schauen aus dem 
Fenster und rufen hin und wieder: »Oh, guck doch mal, die schöne Landschaft!«, 
aber die Kinder sehen den Wald vor lauter Bäumen nicht und spielen lieber UNO. 

Der Umstand, dass Landschaften nicht in der Materialität der Erdoberfläche 
begründet sind, sondern erst im Auge ihrer Betrachterinnen und Betrachter ent- 
stehen, dass sie also nicht sind, sondern gemacht werden, führte dazu, dass sich 
die Landschaftsgeographie einigen Problemen gegenübersah. Eins dieser Prob- 
leme bestand darin, allgemein gültige Aussagen über Landschaften, etwa über 
ihre Größe oder ihren inneren Aufbau, zu formulieren. Das Größenproblem kam 
bereits im obigen Zitat von Schmithüsen zur Sprache, der schreibt, dass es noch 
niemandem gelungen sei festzulegen, wie groß ein Raumausschnitt sein müsse, 
damit er als Landschaft angesprochen werden könne. Auch die Fragen, aus wel- 
chen Elementen eine Landschaft aufgebaut und welches ihre »kleinsten einheit- 
lichen Bestandtheile« seien,” wurden viel diskutiert, konnten aber letztlich nicht 
objektiv beantwortet werden. 

Viele Landschaftsgeographen ahnten wohl, dass der Versuch, Landschaft zu 
objektivieren, letztlich zum Scheitern verurteilt war. »Ist die Landschaft in ihrer 
unendlichen Vielfalt des Vorhandenen überhaupt der wissenschaftlichen Erfas- 
sung zugänglich?«, fragt der Schweizer Geograph Hans Carol und spielt damit 
auf den Anspruch der Landschaftsgeographie an, Wissenschaft zu sein.” »Gewiss 
entzieht sich vieles der Ratio«, fügt er hinzu und stellt damit die Sinnhaftigkeit 
des Wissenschaftlichkeitsanspruchs gewissermaßen in Frage, »aber auch das ra- 
tional Greifbare ist mannigfaltiger als in den meisten anderen Wissenschaften 
und lässt sich daher in seiner Gesamtheit nur schwer erfassen«.” In der daraus 
folgenden Notwendigkeit, Aussagen »in »königlicher Souveränität: (Niggli)«' zu 
treffen, zeigt sich das ganze Dilemma der Landschaftsgeographie, die denn auch 
Ende der 1960er-Jahre als »unwissenschaftlich« gebrandmarkt und verabschiedet 


11 Siefried Passarge: »Wesen, Aufgaben und Grenzen der Landschaftskunde«, in: Petermanns 
Mitteilungen, Ergänzungsheft 209 (1930), S. 29-44, hier S. 31. 

12 Hans Carol: »Zur Diskussion um Landschaft und Geographie«, in: Geographica Helvetica 11 
(1956), S. 111-133, hier S. 127. 

13 Ebd., S. 127. 

14 Ebd., S. 127. 
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wurde. Als einschneidendes Ereignis, das die Abkehr von der Landschaftsgeo- 
graphie besiegelte, gilt der Kieler Geographentag von 1969. In Kiel trugen vor al- 
lem junge Wissenschaftlerinnen und Wissenschaftler sowie Studierende dazu 
bei, dass sich die Geographie von der Beschäftigung mit der Landschaft löste und 
ihr Heil stattdessen in der Problem- und Anwendungsorientierung suchte. 


2 Abstrakter Raum 


Mit dem inhaltlichen Perspektivenwechsel verband sich eine neue methodologi- 
sche Orientierung. An die Stelle von »königlicher Intuition« und »Landschafts- 
hermeneutik«” sollten »harte« mathematische Verfahren treten, die als eigentlich 
wissenschaftlich betrachtet wurden. Die siebziger Jahre des 20. Jahrhunderts 
sind in der Geographie das Zeitalter der so genannten quantitativen Revolution, 
und im Rahmen der quantitativen Revolution wurde die Landschaft als for- 
schungsleitende Raumvorstellung durch einen abstrakten Raum aus Zahlen und 
Algorithmen abgelöst. Beispielhaft zeigt sich dieser abstrakte Raum in einem 
Text, dessen Titel radikal mit der Welt der Landschaftsgeographie bricht: »Ein 
allgemeines statisch-diskretes Optimierungsmodell für Standort-Zuordnungs- 
probleme«.'° Veröffentlicht ist der Beitrag übrigens in einer Schriftenreihe, deren 
Titel in der Welt der Schmithüsens und Carols Kopfschütteln hervorgerufen 
hätte: »Karlsruher Manuskripte zur mathematischen und theoretischen Wirt- 
schafts- und Sozialgeographie«. 

»Räumliche Optimierungsmodelle«, schreibt Gerhard Bahrenberg dort, »ha- 
ben in den letzten Jahren ein beträchtliches Interesse seitens der Geographie und 
benachbarter Raumwissenschaften gefunden und zwar vor allem in Hinblick auf 
ihren Einsatz für die Standortplanung zentraler Einrichtungen«.” Bemerkens- 
wert ist in diesem Satz der Hinweis auf die »benachbarten Raumwissenschaften«. 
Dieser Hinweis wird zwar denkbar beiläufig eingestreut; dennoch - oder gerade 
deshalb - stellt er unmissverständlich klar: Die Geographie hat es nicht mehr mit 


15 Gerhard Hard: »Der Spatial Turn, von der Geographie aus beobachtet«, in: Spatial Turn. Das 
Raumparadigma in den Kultur- und Sozialwissenschaften, hg. v. Jörg Döring und Tristan Thiel- 
mann. Bielefeld 2008, S. 263-316, hier S. 287. 

16 Vgl. Gerhard Bahrenberg: Ein allgemeines statisch-diskretes Optimierungsmodell für Standort- 
Zuordnungsprobleme. Karlsruhe 1978 (Karlsruher Manuskripte zur Mathematischen und Theore- 
tischen Wirtschafts- und Sozialgeographie 31). 

17 Ebd., S.1. 
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Landschaft zu tun, sondern mit R A U M! Die Geographie ist zu einer Raumwis- 
senschaft geworden, die sich, so fing das Zitat an, mit räumlichen Optimierungs- 
modellen beschäftigt. 

Was hat man sich unter »räumlichen Optimierungsmodellen« vorzustellen? 
»Das Problem, das räumliche Optimierungsmodelle lösen sollen, lässt sich kurz 
wie folgt umschreiben: Gegeben sei eine Menge von m Standorten (so genannte 
Nachfragestandorte), an denen ein Bedarf nach einem zentralen Gut bzw. einer 
Dienstleistung besteht. Gesucht sind dann eine Menge von so genannten Ange- 
botsstandorten und/oder die Zuordnungen der Nachfrage- zu den Angebots- 
standorten, so dass bestimmte Planungsziele erfüllt werden«.'® Räumliche Opti- 
mierungsmodelle zeigen also beispielsweise auf, wo (d.h. an welcher Stelle in 
einem Stadtteil, einer Stadt, einer Region, eines Landes usw.) ein Supermarkt, 
ein Krankenhaus oder eine Schule platziert sein müssen, damit keine Versor- 
gungsliicken entstehen und die Bevölkerung des entsprechenden Raumaus- 
schnitts möglichst gut versorgt ist. 

Die Frage, wo (d. h. an welcher Stelle) Dinge platziert sein müssen, damit 
eine möglichst gute Verteilung entsteht, stellte sich in der Geographie nicht erst 
seit der quantitativen Revolution. Auch zu Zeiten der Landschaftsgeographie gab 
es bereits Fachvertreter, die sich mit Fragen der räumlichen Verteilung im Sinne 
von Konzentration und Dispersion beschäftigten. Dies taten sie freilich nicht in- 
nerhalb des landschaftsgeographischen Paradigmas, sondern bestenfalls an des- 
sen Rande. Es waren vor allem die Wirtschaftsgeographen, die sich immer schon 
weniger für Landschaften als vielmehr für Verflechtungen und Reichweiten inte- 
ressierten. So hat beispielsweise in den 1930er-Jahren Walter Christaller die so- 
genannte Theorie der zentralen Orte aufgestellt, die als eine der klassischen geo- 
graphischen Standorttheorien bis heute in keinem wirtschaftsgeographischen 
Lehrbuch fehlen darf.” 

Die Theorie der zentralen Orte fußt auf zwei Grundgedanken. Der erste, quasi 
»von oben: kommende, besteht in der Idee des so genannten Bedeutungsüber- 
schusses. Damit ist die »Fähigkeit« eines Ortes gemeint, nicht nur die Bedürfnisse 
der ortsansässigen Bevölkerung, sondern auch des näheren oder weiteren Um- 
lands zu decken. Nach Christaller ist ein Ort umso zentraler, je größer sein Be- 
deutungsüberschuss ist, sprich: je größer das Umland ist, das zu versorgen er im- 
stande ist. Der zweite Grundgedanke, der komplementär zum ersten angelegt ist 


18 Ebd., S.1. 

19 Walter Christaller: Die zentralen Orte in Süddeutschland. Eine ökonomisch-geographische 
Untersuchung über die Gesetzmäßigkeit der Verbreitung und Entwicklung der Siedlungen mit 
städtischen Funktionen. Jena 1933. 
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und eher »von unten: kommt, bezieht sich darauf, dass Güter und Dienstleistun- 
gen eine spezifische Nachfrage haben und dadurch je unterschiedliche Reichwei- 
ten aufweisen. Die Theorie der zentralen Orte führt beide Grundgedanken zusam- 
men, indem sie davon ausgeht, dass es in jedem Gebiet eine Abfolge von Orten 
unterschiedlicher Zentralität gibt, wobei jeder Ort wiederum ein Kontinuum von 
Gütern und Dienstleistungen niedrigeren Ranges zu Gütern und Dienstleistun- 
gen höheren Ranges aufweist. In diesem Sinne zeigt Abbildung 3, top-down gele- 
sen, die Verteilung der Orte im Untersuchungsgebiet angefangen vom zentrals- 
ten G-Ort bis hin zu den am wenigsten zentralen M-Orten. Mit Blick auf die 
Reichweite einzelner Güter und Dienstleistungen, also bottom-up betrachtet, gilt, 
dass alles, was an den M-Orten angeboten wird, auch an den höherrangigen Or- 
ten angeboten wird - aber eben nicht umgekehrt. 


Fig-2: Die Ergänzungsgebiste im System der zentralen 
Orte. 


G-Gebiet 


== Grenze 


— Grenze B-Gebiet 


—-- Grenze K-Gebiet 
-- Grenze A-Gebiet 
„Grenze M-Gebiet 


Abb. 3: Die Ergänzungsgebiete im System der zentralen Orte?’ 
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Fiir Wirtschaftsgeographen wie Gerhard Bahrenberg bestand die Herausforde- 
rung darin, die Standortüberlegungen, die Christaller für den zweidimensionalen 
Raum angestellt hatte, an »reale« Bedingungen anzupassen. Denn so plausibel 
das hexagonale Standort-Muster für die euklidische Ebene ist, so wenig über- 
zeugt es im geographischen Erd-Raum. Bahrenbergs Optimierungsmodell be- 
rücksichtigt bei der Berechnung der Frage, wo (d. h. an welcher Stelle) öffentliche 
Einrichtungen platziert sein müssen, damit bestimmte Planungsziele erfüllt wer- 
den, denn auch Faktoren wie den zeitlichen Horizont der Planung, Transportauf- 
wände oder die Art der Inanspruchnahme der Einrichtungen. Sein Algorithmus 
»kombiniert bekannte exakte und heuristische Lösungsalgorithmen für Stand- 
ort-Zuordnungsprobleme ohne Kapazitätsrestriktionen mit einem Zuordnungsal- 
gorithmus, der die Einzugsbereiche unter Berücksichtigung der Grenzen für die 
Größen bestimmt, wobei eine gewisse Kompaktheit der Einzugsbereiche ange- 
strebt wird«.”' Aber auch wenn Bahrenbergs Modell damit schon recht komplex 
ist — die beste Verteilung von Einrichtungen konnte er damit freilich nicht be- 
rechnen. 

Das Unvermögen, den »richtigen« Algorithmus zu entwickeln, zeigt gewisser- 
maßen die Grenzen der Humangeographie als Raumwissenschaft auf. Die 
Schwierigkeiten lagen nicht nur darin, dass die Rechenkapazitäten insofern 
begrenzt waren, als noch keine Computer zur Verfügung standen, so dass we- 
sentliche Faktoren (wie z. B. »verkettete Vielzweckfahrten«) außen vor gelassen 
werden mussten. Das Problem bestand vor allem auch im Anspruch der Raum- 
wissenschaft, Gesellschaft objektivieren und in mathematische Formeln überset- 
zen zu wollen. Gesellschaft ist aber im schönsten Sinne unberechenbar, und die 
Frage, ob eine gegebene Verteilung gut oder schlecht ist, kann nicht allgemein- 
gültig, sondern nur von einem bestimmten Standpunkt aus beantwortet werden. 
Anders ausgedrückt: Die Frage, wo (d. h. an welcher Stelle) eine Einrichtung am 
besten anzusiedeln ist, entscheidet sich weniger im Rahmen ausgeklügelter, ver- 
meintlich objektive Berechnung als vielmehr vor dem Hintergrund eines be- 
stimmten Erwartungshorizonts, bestimmter Planungsziele und in Abhängigkeit 
von den impliziten und expliziten Normen, die den Planungszielen zugrunde lie- 
gen. Dass Entscheidungen daher oft genug im Kontext von Machtasymmetrien 
und Verteilungskämpfen getroffen werden, ist denn auch von Seiten der Pla- 


21 Bahrenberg: Ein allgemeines statisch-diskretes Optimierungsmodell, S. 19. 
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nungstheorie in den letzten Jahren immer stärker in den Blick genommen wor- 
den.” Die tendenziell unpolitische Haltung der angewandten Geographie der 
1970er-Jahre, die Raumplanung gewissermaßen als Rechenaufgabe verstand, ist 
innergeographisch insbesondere von Seiten der Politischen Geographie kritisiert 
worden.” 


3 Digitaler Raum 


Aller Kritiken zum Trotz bildet der abstrakte Raum der Raumwissenschaft bis 
heute die wohl erfolgreichste Raumvorstellung, die die Geographie zu bieten hat. 
Seine Popularität und Aktualität verdankt er nicht zuletzt den Prozessen der Di- 
gitalisierung, die in den 1980er- und 1990er-Jahren um sich griffen und dazu 
führten, dass er sukzessive an Komplexität gewann und (vermeintlich) immer »re- 
alistischer< wurde. Damit entwickelte sich die dritte Raumvorstellung, die in die- 
sem Beitrag betrachtet wird: der digitale Raum. Der digitale Raum entsteht, wenn 
raumbezogene Datenmengen verarbeitet und >in ein Bild gegossen«, also visuali- 
siert werden. Der Ort, an dem das innerhalb der Geographie stattfindet, heißt 
Geographisches Informationssystem. Geographische Informationssysteme füh- 
ren - das ist ein Gedanke, der im Folgenden entwickelt wird — zu einer »Erweite- 
rung: der Realität (Stichwort: augmented reality), indem sie den abstrakten Raum 
der quantitativen Revolution durch bildgebende Verfahren wieder qualifizieren. 

Ein Geographisches Informationssystem, in der Geographie kurz GIS ge- 
nannt, arbeitet nach dem EVAP-Prinzip;™ dient also der Erfassung, Verwaltung, 
Analyse und Präsentation von Daten. Im Gegensatz zu »einfachen« Informations- 
systemen geht es im GIS nicht nur um die Verarbeitung von Sachdaten, sondern 
um eine Verknüpfung von sach- und raumbezogenen Datenbeständen. Durch die 
Herstellung eines Zusammenhangs zwischen Wie und Wo wird, um aus einem 
Handbuch eines Unternehmens für GIS-Softwareprodukte zu zitieren, eine »neue 


22 Vgl. z.B. die Beiträge in Frank Othengrafen und Martin Sondermann (Hg.): Städtische Pla- 
nungskulturen im Spiegel von Konflikten, Protesten und Initiativen. Berlin 2015 (Reihe Planungs- 
rundschau 23). 

23 Vgl. Gerhard Sandner und Jürgen Oßenbrügge: »Political geography in Germany after World 
War II«, in: 40 years after. German geography; developments, trends and prospects 1952-1992; 
a report to the International Geographical Union, hg. v. Eckart Ehlers. Bonn 1992 (Applied Geog- 
raphy and Development, Suppl. Volume), S. 251-275. 

24 Martin Kappas: Geographische Informationssysteme. Braunschweig 2011, S. 47. 
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Qualität an Informationen« erreicht.” Um die Daten >in Bilder zu gießen: und 
als/im Raum zu visualisieren, stehen grundsätzlich zwei Datenmodelle zur Ver- 
fügung: Im Rastermodell, das u. a. auch die Grundlage der digitalen Fotographie 
bildet, wird der Raum »durch ein regelhaftes, in Matrixform gegliedertes System 
von in der Regel quadratischen Pixeln« repräsentiert,” wobei jeder Punkt des 
darzustellenden Gebietes mit einem Wert versehen wird. Das Vektormodell hin- 
gegen verzichtet darauf, den darzustellenden Raum in Zellen einzuteilen. Statt- 
dessen wird »die Realität über ein System von georeferenzierten Punkten, Linien 
und Polygonen abgebildet, die mit Sachdaten verknüpft sind«.” 

Die Karte in Abbildung 4 basiert auf dem Rastermodell. Obwohl sie als Isoli- 
nienkarte eine Vektoroberfläche zeigt, handelt es sich um die Visualisierung ei- 
nes rasterbasierten Höhenmodells, in dem jeder Punkt mit einer Höheninforma- 
tion versehen ist. Die Höhenwerte des Modells liegen zwischen 450 und 950 Fuß; 
das Intervall der Höhenlinien wurde durch den Anwender bei der Herstellung der 
Oberflächendarstellung festgelegt. Im Lehrbuch, in dem das Bild abgedruckt ist, 
wird kurz auf die Geschichte des Rastermodells eingegangen.” Den Autoren zu- 
folge wurden seine Grundlagen durch den Pointillismus des ausgehenden 19. 
Jahrhunderts - und damit lange vor dem so genannten digitalen Zeitalter — ge- 
legt: 


Notably, the foundation of this technology predates computers and digital cameras by 
nearly a century. The neoimpressionist artist, Georges Seurat, developed a painting tech- 
nique referred to as >pointillism< in the 1880s, which similarly relies on the amassing of 
small, monochromatic >dots< of ink that combine to form a larger image (...). If you are as 
generous as the author, you may indeed think of your raster dataset creations as sublime 
works of art.” 


25 GI Geoinformatik GmbH: ArcGIS 10 - das deutschsprachige Handbuch fiir ArcView und Ar- 
cEditor. Berlin 2011, S. 7. 

26 Frank Dickmann und Klaus Zehner: Computerkartographie und GIS. Braunschweig 1999, 
S. 56. 

27 Helmut Saurer und Hans-Joachim Rosner: »Geographische Informationssysteme (GIS) — was 
ist wo?«, in: Geographie. Physische Geographie und Humangeographie, hg. v. Hans Gebhardt. 
Heidelberg 2011, S. 202-207, hier S. 203. 

28 Jonathan Campbell und Michael Shin: Essentials to Geographic Information Systems. Irving- 
ton, N.Y. 2011, S. 47. 
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Abb. 4: »Contour Lines derived from a DEM« (Aus einem digitalen Geländemodell abgeleitete 
Höhenlinien)? 


Visualisierungen digitaler Höhenmodelle sind, ebenso wie andere GIS-Anwen- 
dungen, aber nicht nur schön, sondern auch nützlich. So kann man mit einem 
Hochwasser-GIS, in dem ein Höhen- oder Geländemodell mit Angaben zur Flä- 
chennutzung (Wohngebiet, Gewerbegebiet, Verkehrsfläche, Grünfläche usw.) 
und hydrologischen Daten zusammengeführt wurde, darstellen, welche Teile ei- 
ner Stadt oder Landschaft jeweils überflutet sind, wenn das Hochwasser diesen 
oder jenen Pegelstand erreicht hat. Gerade in Zeiten des Klimawandels, in denen 
Hochwasserereignisse lokal wahrscheinlicher werden, hat beispielsweise die 
Versicherungswirtschaft großes Interesse an so genannten Gefahrenkarten, auf 
denen die monetären Risiken, die mit Hochwassern - oder anderen Umweltereig- 
nissen wie Stürmen oder Hangrutschungen - verbunden sind, für beliebige 


30 Ebd., S. 135. 
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Raumausschnitte möglichst parzellengenau ablesbar sind. Darüber hinaus inte- 
ressieren sich Versicherungen auch fiir die Verteilungsmuster von »sozialen 
Gefahrenlagen« wie z. B. von Verkehrsunfallen (KFZ-Versicherung) oder Einbrii- 
chen (Hausratversicherung). Die Versuche öffentlicher und privater Sicherheits- 
organe, Orte von Verbrechen über Mustererkennungs-Algorithmen vorhersagen 
zu können, werden unter dem Stichwort des Predictive Policing diskutiert.” 
Solche Modellierungen erlauben insofern, eine »erweiterte« Realität abzubil- 
den, als sie in der Lage sind, aus einer Realität viele zu machen. Sie zeigen mit 
anderen Worten Realitäten, die es zum Zeitpunkt der Modellierung noch oder 
noch nicht bzw. nicht oder nicht mehr gibt. Was würde passieren, wenn ein Deich 
an dieser oder jener Stelle brechen würde? Was würde passieren, wenn die Fre- 
quenz von Polizeistreifen in diesem oder jenem Quartier erhöht würde? Die erste 
Frage ist wesentlich einfacher zu beantworten als die zweite - vorausgesetzt, im 
Fall des Deichbruchs werden ausschließlich die physischen Materialitäten be- 
trachtet, deren Dynamik sich u.a. über Masse (Wasser, Damm) und Kraft 
(Schwerkraft) recht einfach berechnen lassen. Im Fall der Polizeistreife aber sind 
Menschen am Werk, deren Tätigkeiten (Einbrüche, Verkehrsunfälle) sich Berech- 
nungen in kausalen Gesetzmäßigkeiten entziehen. Aus diesem Grund ist man 
dazu übergegangen, Methoden des sog. agent-based modelling in Geographische 
Informationssysteme zu integrieren.” Allerdings vermag es auch agentenbasierte 
Modellierung nicht, den >richtigen« Algorithmus zu entwickeln; sie stößt also, sa- 
lopp gesagt, an die gleichen Grenzen wie vor ihr schon Gerhard Bahrenberg. 
Auch die ästhetischen Qualitäten des digitalen Raums, die oben am Beispiel 
des Rastermodells angeklungen sind, können als Erweiterungen der Realität ge- 
lesen werden. Fine besondere Schattierung kann eine Visualisierung dramatisch 
erscheinen lassen; eine bestimmte Farbgebung sie harmloser wirken lassen, als 
sie »vom Inhalt her< eigentlich ist. In der Geschichte der Kartographie wurde den 
ästhetischen Wirkungen von Form und Farbe eine zentrale Rolle zuerkannt, und 
vor allem in älteren Darstellungen wird immer wieder darauf hingewiesen, dass 
Karten nicht nur »wahr«, sondern auch »schön« sein sollten. Paradigmatisch zeigt 
sich der Glaube an die Verschränkung von »Logik« und »Ästhetik« der Kartogra- 
phie in den Werken des Geographen Max Eckert-Greifendorff (1868-1938). 
Eckert-Greiffendorff, der wie sein Doktorvater Friedrich Ratzel für eine völkisch- 


31 Manfred Rolfes: »Predictive Policing. Beobachtungen und Reflexionen zur Einführung und 
Etablierung einer vorhersagenden Polizeiarbeit«, in: Potsdamer Geographische Praxis 12 (2017), 
S. 51-76. 

32 Vgl. Alison J. Heppenstall, Andrew T. Crooks, Linda M. See und Michael Batty: Agent-based 
Models of Geographical Systems. New York 2012. 
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rassische Akzentuierung der Landschaftsgeographie stand, schrieb, Kartogra- 
phie sei und bleibe »ein inniges Verschmelzen des wissenschaftlichen Geistes mit 
der ausiibenden Kunst«: »Die beste, auf guter Grundlage beruhende Bearbeitung 
einer Karte erfüllt nicht den Zweck, wenn nicht der Kartograph dem Kartenent- 
wurf ein schönes, ästhetisch wirkendes Inneres und Äußeres zu geben (...) ver- 
mag«.” 

Auch diejenigen, die heute mit GIS - oder allgemeiner gesprochen: mit der 
Verknüpfung von sach- und raumbezogenen Informationen - ihr Geld verdienen, 
sind notwendig am »Design« ihrer Visualisierungen interessiert. Das gilt erst recht 
für die kommerziellen Dienste und Anwendungen im Geoweb, wie »die rasch an- 
wachsende Gesamtheit geographischer Informationen im Internet« bezeichnet 
wird.* Zwar geht es dort nur in den seltensten Fällen darum, digitale Rembrandts 
— bzw. Seurats — zu erschaffen. Gleichwohl richtet sich der Erfolg auf dem Markt 
des Geowebs nicht zuletzt danach, wie gut es den Programmiererinnen und Pro- 
grammierern gelingt, die Zahlenordnungen, die sie erschaffen, durch Visualisie- 
rung »an der Oberfläche« (bzw. am Front-End) wieder zu qualifizieren und damit 
für die Nutzerinnen und Nutzer erst lesbar zu machen. Große Kartendienste wie 
Google Maps haben mit Anbietern von kleinen Augmented Reality-Apps gemein- 
sam, dass sie die Realität für ihre Nutzerinnen und Nutzer insofern »erweitern«, 
als sie zusätzliche, oft georeferenzierte Informationen bereitstellen.” 


4 Die Geographie, das Qualitative und das 
Quantitative 
Innerhalb der fachwissenschaftlichen Geographie wird ästhetischen Fragen 


demgegenüber eher wenig Aufmerksamkeit geschenkt. Die eher geringe Auf- 
merksamkeit, die die mit GIS befassten Geographinnen und Geographen der 


33 Max Eckert-Greiffendorf: Kartographie. Ihre Aufgabe und Bedeutung für die Kultur der Ge- 
genwart. Berlin 1939, S. 28. 

34 Georg Glasze: »Sozialwissenschaftliche Kartographie-, GIS- und Geoweb-Forschung«, in: 
Kartographische Nachrichten 3 (2014), S. 123-129, hier S. 125. 

35 Zu den regelmäßigen Überarbeitungen der Kartendarstellung in Google Maps siehe z. B. Jo- 
nah Jones: »Evolving the look of Google Maps, redux«, https://maps.googleblog.com/2011 
/07/evolving-look-of-google-maps-redux.html. Webblog (5. März 2017). 
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Schönheit ihrer Produkte entgegenbringen, sei am Beispiel einer Textpassage aus 
einem deutschsprachigen GIS-Lehrbuch illustriert: 


Der Schwerpunkt kartographischer Software liegt eindeutig auf der Gestaltung themati- 
scher Karten, während bei Geographischen Informationssystemen die interaktiven, in der 
Regel bildschirmorientierten Prozesse der Datenanalyse und -manipulation im Zentrum des 
Interesses stehen. Dies bedeutet, dass der Nutzer Fragen an das System richtet, auf die er 
unter Benutzung der entsprechenden Datenbankwerkzeuge Antworten erhält. Die erzielten 
Abfrageergebnisse werden oft gar nicht erst ausgedruckt, sondern dienen wiederum als 
Ausgangsbasis für die Bearbeitung weiterer Aspekte einer Problemstellung. Für die Mehr- 
zahl der beim Arbeiten mit einem GIS entstehenden Visualisierungen wird überhaupt keine 
dauerhafte und anspruchsvolle Form der Darstellung angestrebt. (...) Erst am Ende des Ar- 
beitsprozesses, bei der Gestaltung anspruchsvoller Darstellungen von wissenschaftlichen 
Ergebnissen, wird eine gute Kartographie verlangt.” 


Vor diesem Hintergrund schreiben die Autoren des Lehrbuchs Frank Dickmann 
und Klaus Zehner, die im Prozess einer Datenanalyse erstellten Papierkarten oder 
-pläne seien »eigentlich nur noch Abfallprodukte im Sinne von Datenbankrepor- 
ten oder sog. »Views««.” Zwar muss an dieser Stelle in Rechnung gestellt werden, 
dass Geoweb und 3D-Visualisierung im Jahr 1999 noch in den Kinderschuhen 
steckten, so dass die visuellen Zwischenprodukte oft tatsächlich eher unansehn- 
lich waren. Gleichwohl unterscheidet sich das Arbeiten mit GIS bis heute von rein 
kartographischem Arbeiten dadurch, dass der Analyse Vorrang vor der Visuali- 
sierung eingeräumt wird. So spricht aus dem Zitat eine gewisse Negierung der 
qualitativen, und insbesondere der ästhetisch-künstlerischen Gehalte des ver- 
meintlich quantitativen digitalen Raums, die bis heute Gültigkeit hat. 

In dieser Negierung zeigt sich einmal mehr die Asymmetrie des Verhältnisses 
von Qualitativem und Quantitativem, das für die Entwicklung der fachwissen- 
schaftlichen Geographie symptomatisch ist. Wie im ersten Kapitel dieses Beitrags 
gesehen, scheiterte die Landschaftsgeographie, einer spezifischen Vorstellung 
von metrisierender, skalierender und typisierender Wissenschaftlichkeit fol- 
send, am Bemühen, einen qualitativen Gegenstand zu quantifizieren. Auch die 
Beschäftigung mit dem abstrakten Raum, der an die Stelle der Landschaft getre- 
ten war, hatte zum Ziel, den aus den Naturwissenschaften kommenden Wissen- 
schaftlichkeitsanspruchs des Fachs zu unterstreichen und die Grenze zur Kunst 
bzw. zum »Geschichtenerzählen« zu wahren. In diesem Sinne kann auch der Um- 
gang mit den qualitativen Gehalten des digitalen Raums als »Reinigungsarbeit« 
im Sinne Latours (2008) interpretiert werden. Durch diese Arbeit wird die gängige 


36 Dickmann und Zehner: Computerkartographie und GIS, S. 20; Hervorh. i. Original. 
37 Ebd. 
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Vorstellung vom Qualitativen und vom Quantitativen als unterschiedlichen 
Wirklichkeitsbereichen weiter verfestigt. 
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